摘要

在细粒度图像分类任务中,提取出具有区分性的局部特征对识别图像之间的微小差异非常重要。基于ViT(vision transformer)框架的算法模型在计算机视觉各个研究领域取得了优异的表现。针对基于ViT框架的细粒度图像分类模型对图片局部区域关注度低的问题且为进一步加强图像块特征的上下文联系,提出了一种基于加强图像块相关性的细粒度图像分类方法。首先,提出了赋予图像块相关性权重的方法,并嵌套应用于不同层编码器中丰富不同层次特征信息,解决了ViT对图像局部特征关注不够的问题;其次,结合图像块的位置信息加强了局部特征上下文的联系,同时减少了噪声信息带来的干扰;最后,提出相似损失函数来学习细粒度图像中微小特征的差异性,优化模型的分类效果。在两个公开数据集CUB-200-2011和Standford Dogs上进行实验分别取得了91.33%、92.15%的准确率,提出的方法分别比基准模型ViT网络提升了0.63、0.45百分点,有效提升了细粒度图像分类效果,验证了方法的有效性。

全文