摘要
使用卷积神经网络(Convolutional Neural Networks, CNN)提取牛脸特征时,往往忽略全局上下文信息,只能提取到牛脸图像的局部特征信息。视觉转换器(Vision Transformer, ViT)模型的全局感受野能有效改善CNN局部感受野问题。提出一种基于ViT模型的牛脸识别算法。首先,在ViT模型中加入patch-shift网络层,通过获取牛脸图像的全局特征和局部特征,以及局部特征之间的相关性,有效缓解了牛脸图像脏污的影响;然后,在patch-shift网络层之后加入可学习的掩码矩阵,运用掩码矩阵学习图像块的重要性,使模型更加关注牛脸图像块,抑制了背景噪声的干扰。在包含正脸、左侧脸和右侧脸3种正常图像库和特殊图像库中进行仿真实验,和基于CNN的牛脸识别算法相比,提出的算法有效降低了零误识下的拒识率,提高了Top1排序性能。
- 单位