摘要

行人识别是利用计算机视觉算法对跨设备的行人图像或视频进行匹配,在智能安防,智能商业等方面有巨大应用前景。文章提出一种基于Vision Transformer的行人重识别框架。以一种强基线ViT-BoT作为骨干网络,此外,为提高识别能力和更多样化的覆盖提出拼图补丁模块(jigsaw patches module,JPM),通过位移和补丁洗牌操作重新排列补丁嵌入向量,生成鲁棒特征。同时为了减少特征对摄像机/视图变化的偏差,引入边信息嵌入向量(Side Information Embeddings,SIE),通过将摄像机或视点信息作为嵌入到Transformer框架中。所提算法能够增强在Transformer环境下的鲁棒特征学习。

  • 单位
    四川大学锦城学院

全文