摘要
针对现有基于孪生网络的视频目标跟踪(video object tracking, VOT)方法存在的特征提取能力不足以及对外观变化过大或平面外旋转等目标跟踪效果不佳的问题,提出一种基于残差密集孪生网络的VOT方法.首先,使用嵌入卷积注意力的残差密集网络对模板帧图像和检测帧图像分别提取不同层次的特征;然后,将不同层次的特征通过相互独立的区域候选网络进行互相关操作;最后,将多个区域候选网络的输出自适应加权求和,得到最终的跟踪结果.实验结果表明,该方法在应对目标表观变化过大、平面外旋转等挑战时,能够获得较好的跟踪效果.
- 单位