摘要

图像语义分割技术作为计算机视觉领域的关键技术之一,可以识别并理解图像中每一个像素的内容,并已应用在自动驾驶、医疗诊断、地理信息系统以及图像搜索等很多场景。相对于深度卷积神经网络,Transformer模型基于纯注意力机制,没有任何卷积层或循环神经网络层。本文在Swin Transformer的基础上进行了改进,提出了一种新的网络结构SwinLab。实验结果表明改进后的SwinLab模型相比于深度卷积神经网络的模型算法以及原Swin Transformer模型的分割精度不相上下,mIoU可达80.1,同时在CityScapes数据集上也进行了对比实验,从而进一步证明了该结构的有效性和泛化性。综上,本文在以Swin Transformer为骨干网络的基础上做了相关工作,从而使模型结构更简单,训练和推理速度更快,且准确率也相当可观。