摘要
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,本文提出一种利用Transformer的多模态目标跟踪算法(Trans-RGBT):首先利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;其次将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;再次应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;最后使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。本文在最新的大规模数据集VTUAV,RGBT234上进行了实验,与孪生网络(Siam-based)、滤波(Filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22fps。
- 单位