摘要

【目的】针对遥感图像分类任务,为使模型精确捕获高层语义信息的同时降低计算复杂度,解决遥感图像分类任务中类内差异大而类间差异小的问题,提出了基于Mobile Vi T轻量化网络的遥感图像分类方法。【方法】基于Transformer框架,通过在卷积神经网络中引入注意力机制来实现对图像特征的提取和编码。在训练阶段,Mobile Vi T使用类似于传统Transformer模型的自监督学习方法,即通过无监督的方式学习图像特征的表示。通过使用一种名为Contrastive Multiview Coding(CMC)的学习策略,该策略可以通过最大化不同视角下的图像相似性来学习图像特征。在训练过程中,Mobile Vi T使用随机数据增强技术和Dropout等方法来增加模型的泛化能力,同时应用权重衰减和梯度剪裁等技术来避免过拟合和爆炸梯度问题。在推理阶段,Mobile Vi T将输入的图像沿着通道轴划分成多个块,并将每个块作为一个序列输入到Transformer网络中。在Transformer网络中,Mobile Vi T采用多头自注意力机制和全连接层,将每个块的特征编码成一个固定长度的向量。然后,Mobile Vi T使用全局池化操作来获得整个图像的表示,并将其送入一个分类器中进行预测。在Mobile Vi T中,局部注意力机制和跨尺度注意力机制被嵌入到了Transformer网络结构中,从而提升了模型的性能。【结果】本方法可以避免过拟合问题,实现对图像特征的高效提取和编码,在AID测试集的准确率达95.0%,在RSD46-WHU测试集的准确率达87.4%,具有较好的鲁棒性,能够在短时间的训练中快速提升准确率,在不损失大量精度的情况下,极大地减少了Transformer框架训练所需的参数,可为Transformer轻量化设计奠定基础。