摘要

细粒度图像分类(Fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题之一。与传统图像分类任务相比,FGIC的挑战在于类间对象之间极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战、ViT模型相关介绍及特性分析。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行总结,并分析它们的优缺点。接着,通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后,指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。