摘要

针对常见的视频目标跟踪算法难以适应背景杂波、形变和遮挡等干扰场景,提出了一种基于孪生网络的多级串联注意特征融合目标跟踪算法。该算法并不是简单将不同层的特征进行加权融合,而是从深层到浅层多级地进行注意特征的融合,并引入模板更新机制。将首帧图像和当前搜索帧的前一帧图像作为跟踪模板,用MobileNetV2网络提取目标模板帧图像和当前帧图像的深层语义特征和浅层位置特征;提取的特征进入多级串联特征融合注意力模块,由深层向浅层融合语义特征和空间结构特征并利用注意力模块减少融合产生的冗余特征;融合后的特征和最深层的注意力特征分别和当前帧图像的对应特征进行互相关运算,得到多个响应图进行融合获得更准确的目标预测,提高了算法的鲁棒性。通过具有挑战性基准数据集上的大量实验,表明该跟踪算法与现有的一些跟踪算法相比具有更好的性能。