摘要
基于自注意力的视觉变换器(ViT)模型在自然语言处理和计算机视觉领域显示出强大的特征提取和模式表征能力。针对合成孔径雷达(SAR)图像特征与自然物体图像特征存在明显差异的问题,文中提出一种使用ViT模型进行SAR图像目标分类识别的方法,探索基于自注意力的深度学习模型在SAR图像智能化处理的可行性和有效性。ViT模型架构设计与自然语言处理模型架构相似,具有设置简单、可扩展性好、开箱即用的优点。模型主要由图像块分割、图像块投影嵌入、位置嵌入、自注意力模块序列和全连接分类器五部分组成。选择MSTAR公开数据集作为实验数据集,并对数据集训练样本进行数据增强,在增强数据集上对ViT模型进行训练,以在验证集上获得较低的误差和较高的识别率并使网络收敛。使用训练好的ViT模型对SAR图像测试样本进行分类测试,结果显示ViT模型对于SAR图像分类有着高准确率和良好的泛化能力,基于自注意力深度学习方法在SAR图像自动化处理领域具有广阔的应用前景。
-
单位上海师范大学天华学院