摘要
针对语义分割任务中,现有卷积操作难以高效捕捉长距离区域间的关系,导致分割结果存在不符合人类常识这一问题,提出了一种基于深度监督隐空间构建的语义分割改进方法。该方法采用“特征图-隐空间-特征图”流程,将图像空间的像素特征转换为隐空间中的节点特征,将区域之间的位置和语义关系转换为节点之间的连接权重,实现了从特征图到隐空间的特征转换。在隐空间构建过程中,该方法使用Kullback–Leibler散度损失函数监督投影矩阵,以避免从特征图到隐空间节点的转换过程中的特征丢失;使用InfoNCE损失函数监督节点特征表征与真实标签表征,以保持图像特征与标签的一致性。该方法在构建的隐空间上使用图神经网络技术进行语义推理,学习节点之间的关系,赋予模型学习区域间语义关系的能力,从而改善分割结果中的反常识现象。本文在具有挑战性的公开数据集Cityscapes上进行了大量实验,以评估所提出的方法。实验结果表明,相较于基线分割网络,本文提出的方法在Cityscapes数据集上提升了2.6%的mIoU,达到了81.1%的mIoU。同时,通过可视化分割结果发现,本文提出的方法在解决语义分割中存在的反常识问题上具有很好的实用性,有效提升了分割效果。
- 单位