摘要

基于视觉的车辆跟踪技术易受到背景复杂、低分辨率、光照变化等干扰而发生跟踪漂移的现象。为提高在复杂场景中的跟踪性能,提出一种基于注意力机制的视觉车辆跟踪算法。首先,利用基于注意力机制的Swin Transformer充分挖掘与表达特征,完成对全局信息建模;其次,使用基于注意力机制的编码器将信息融合与增强,释放出注意力机制强大的潜力;最后,利用简单、堆叠的RepVGG结构网络对目标位置进行预测。实验结果表明,所提算法在两个公开、大型基准数据集LaSOT与UAV123上精确度分别达到78.4%和89.6%,成功率分别达到69.3%和69.8%,性能超越其他主流跟踪器;对OTB100数据集中的车辆视频序列跟踪结果进行可视化与分析,效果优于基准STARK-S50,具有更稳定的跟踪性能,能够对抗背景复杂、模糊、相似物体、遮挡、光线昏暗、车辆尺度变换与旋转等多种跟踪挑战。

全文