摘要

在图像分类中,有益的语义信息补充可以高效捕捉关键区域,提高分类性能。为了获得有益的图像语义信息,提出了一种SE-CMT(SE-Networks CNN Meet Transformer)模型。该模型依据简单的CNN特征提取理论,输入图像通过SE-CMT Stem重标定前面提取到的特征,再通过SE-CMT Block中的深度卷积层来增强特征。该模型利用SE-CNN(Squeeze-and-Excitation Networks-CNN)提取低级特征、加强局部性,并结合Transformer建立长程依赖关系,通过融合SE-CNN和Transformer结构,提高特征提取性能。在ImageNet和CIFAR-10数据集上的实验结果表明,SE-CMT模型的分类准确率分别达到了85.47%和87.16%top-1精度,实验表明该方法的性能优于基线模型CMT和Vision Transformer。因此,本研究提出的SE-CMT模型是一种有效的图像特征提取方法。