摘要

当前基于Transformer的主流跟踪框架在特征提取及融合方面存在3个问题:1)分开进行特征提取与融合,易产生次优模型训练结果;2)使用计算复杂度为O(N2)的自注意力机制会降低跟踪算法效率;3)简单的目标模板选取策略难以自适应跟踪过程中目标表观的剧烈变化.为此,利用快速傅里叶变换对目标与搜索区域的令牌进行有效混合,提出一种新颖的基于Transformer的视觉目标跟踪方案.针对问题1)提出一种高效端到端方式将特征提取与融合进行统一学习获得最优模型.针对问题2)采用快速傅里叶变换实现目标与搜索区域令牌之间的完全信息交互,该操作计算复杂度为O(Nlog(N))有助于提升跟踪效率.针对问题3)提出一种基于跟踪质量评估的目标模板记忆存储机制以快速自适应目标表观的剧烈变化.在3个标准数据集LaSOT,OTB100,UAV123上,所提方法与当前最优方法相比在效率和精度上均取得更好表现.