摘要

在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-Transformer Multi Object Tracking)。首先,使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。其次,使用双向桥接模块(Two-Way Braidge Module, TBM)对两种特征进行充分融合。然后,将融合后的特征输入两组并行的解码器进行处理。最后将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UA-DETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4、66.3、92.36和88.57,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。此外,由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。