摘要

目前主流Transformer目标跟踪算法只使用Transformer网络进行特征增强和特征融合,忽略了Transformer网络的特征提取能力,并且跟踪过程中对尺度变化、形变等干扰因素缺少有效的模板更新策略。针对上述问题,提出基于时空模板更新和边界框提升的Transformer跟踪算法。首先采用改进后的Swin Transformer作为骨干网络,通过移位窗口进行自注意力计算和全局信息建模,增强骨干网络的特征提取能力;其次使用Transformer编码器-解码器结构融合模板区域和搜索区域信息,利用注意力机制建立特征关联以获取全局语义信息,同时跟踪过程中每隔固定帧根据置信度分数大小动态更新模板,用于调整模板外观状态;最后采用边界框提升模块精细化边界框的回归范围,提升算法的精度。在多个具有挑战性的数据集上与主流先进算法进行性能对比实验,在OTB2015数据集上成功率和精确率分别达到70.2%和91.0%,在GOT-10k数据集上平均重合度相较于基准算法TransT提升了0.02,在LaSOT数据集上成功率相较于基准算法TransT提升了0.024,并且能以42 FPS的跟踪速度进行实时跟踪。