摘要
为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型。ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Transformer的先验知识输入。在Transformer分支中不断缩小特征图尺寸,扩大感受野,充分挖掘局部特征之间的关系,生成行人的全局特征,同时利用移位窗口方法减少模型计算量。在大规模MARS数据集上,Rank-1和mAP分别达到86.8%和80.3%,比基准分别增加了3.8%和3.3%,在2个小规模数据集上也取得了良好效果。在几大数据集上的大量实验表明,本文方法能增强行人识别的鲁棒性,有效提高行人再识别的准确率。
- 单位