基于多层级上下文投票的三维密集字幕

吴春雷; 郝宇钦<sup>*</sup>; 李阳

doi:10.15888/j.cnki.csa.008997

摘要

传统的三维密集字幕方法存在未充分考虑上下文信息、点云特征信息丢失以及隐藏状态信息量单一等问题.为了应对这些挑战,提出了多层级上下文投票网络,该网络在投票过程中使用自注意力机制捕获点云的上下文信息并加以多层级利用,提升检测对象的准确率.同时,还设计了隐藏状态-注意力时序融合模块,将当前时刻隐藏状态融合与前一时刻注意力结果融合,丰富隐藏状态信息量,从而提高模型表达能力.除此之外,采用“两阶段”训练方法,有效过滤掉生成的低质量对象提案,增强描述效果.在官方数据集ScanNet和ScanRefer上的大量实验表明,该方法与基线方法相比取得了更有竞争力的结果.

单位
中国石油大学（华东）

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:16

基于多层级上下文投票的三维密集字幕

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友