摘要

为了在目标发生遮挡、形变、尺度变化和背景干扰等场景下准确地跟踪目标,注意力机制被广泛应用于特征抽取模块,以选择性地关注重要特征和抑制无关特征。然而,现有的注意力机制只考虑了通道特征层与空间特征点之间的局部或全局关系,没有对特征进行融合建模。本文针对复杂跟踪场景提出了一种基于卷积神经网络和自注意力机制的卷积自注意力模块(Convolutional Self -Attention Module,CSAM),该模块能够以注意力加权方式解决前景遮蔽、非刚性形变、快速尺度变化与相似特征背景干扰问题。经过实验验证,引入卷积自注意力模块的孪生网络能够显著地提升跟踪器的性能,在跟踪问题基准(Benchmark)数据集OTB100上以平均重叠率、跟踪成功率与准确率作为评判指标,相比基准模型分别提升了9.2%、2.2%与2.9%。通过进一步的消融实验证明了本文提出并引入的适用于孪生网络跟踪框架的卷积自注意力模块能够有效地提升特征辨识度,对比先进方案兼顾单目标跟踪性能和实时性,能够在大多数实时复杂跟踪场景实现轻量化部署。