融合CNN和Transformer的机器人室内场景识别

刘铁; 段勇<sup>*</sup>

doi:10.13382/j.jemi.B2206084

摘要

为了提高机器人在复杂的室内环境中场景识别的准确率，本文提出一种融合卷积神经网络(convolutional neural network, CNN)和视觉Transformer结构的机器人室内场景识别模型。本文模型利用CNN提取场景局部特征，然后使用视觉Transformer结构捕捉特征中远距离依赖关系，其中提出的视觉Transformer结构包括3个部分，分别是特征编码结构(Attention Embedding)、Encoder结构和一个将高层语义特征转化成像素级特征的结构(Attention Project)。本文研究的机器人场景识别模型利用CNN提高视觉Transformer局部细节特征的描述能力，同时通过视觉Transformer帮助CNN构建远距离特征的依赖关系，从而能够有效的表征和利用机器人工作场景图像的视觉特征。最后，通过机器人在实际工作环境中采集的数据集和开源的COLD数据集进行实验，验证了本文研究模型的有效性，场景识别精度更高。

单位
沈阳工业大学

全文

访问全文

收藏分享被引(1) 浏览

更新时间：2024-03-18 15:22

融合CNN和Transformer的机器人室内场景识别

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友