摘要

为解决高分辨率遥感图像所具有的类内差异大而类间差异小的特性导致的图像难分类问题,提出一种基于深度学习中卷积神经网络与Transformer优点的混合结构。对卷积层提取的特征信息使用两个带有空间位置信息的注意力机制,分别沿水平方向和垂直方向对每个通道进行特征聚集,以减少遥感场景特征的冗余映射,使网络能够提取更多与任务目标相关的信息。然后利用Transformer编码器结构对捕获的特征图进行编码操作,赋予特征图中感兴趣区域较大的权重。实验结果表明,与现有的基于深度学习的遥感图像分类方法相比,所提方法既降低了模型参数量,又提升了分类准确率,在遥感图像分类数据集AID、NWPU-RESISC45及VGoogle上均达到了最高的平均分类准确率,分别为98.95%、96.00%和95.01%。