摘要

遥感影像中的建筑物提取是一项具有挑战性的任务。近年来,众多基于卷积神经网络(convolutional neural network,CNN)的深度学习建筑物提取方法被提出,并取得了超越传统方法的效果。但是卷积神经网络也有其局限性:随着网络深度的增加,浅层的图像特征会被丢失,造成网络性能退化;由于卷积操作天生的局部性,卷积神经网络仅能获取局部信息,而不能利用全局上下文信息。Transformer是一种新的神经网络架构,采用全局自注意力机制设计,可以为网络提供全局信息利用能力,将其与传统CNN结合,可以弥补互相的不足。基于此,提出了一种新的混合模型,将经典的U-Net语义分割模型和Vision Transformer(ViT)集成。通过将自注意力机制引入CNN结构当中,使模型拥有了提取多层次细节信息和全局信息的能力,可以提供准确的建筑物预测结果,同时很好地保持建筑物的边缘轮廓。实验结果证明了方法的有效性。