摘要
针对当前目标跟踪难以适应低光照、运动模糊、目标快速移动等挑战,提出了空间通道注意力下的红外与可见光双模态交互融合跟踪网络。首先,红外图像与可见光图像通过backbone三层卷积提取分层特征,并降维至统一分辨率,之后级联三层特征形成各模态特征。其次,多模态特征通过所设计的空间通道自注意力模块和跨模态交互注意力模块使得模态聚焦于全局空间特征和高响应通道,提高双模态信息的互补性,然后级联得到融合特征。最后,将融合特征送入三层全连接完成目标跟踪任务。在目前最大的红外可见光跟踪数据集RGBT234的实验结果表明,本文网络能有效提取双模态交互特征,提高目标跟踪精度,其精度/成功率比基线网络分别提高了5.3%和4.2%。
- 单位