摘要

在堆场环境下,实时图像语义分割可以提供直观的场景类别信息,为节约工控机等边缘设备有限的硬件资源以及为多源信息融合提供图像语义类别信息,提出一种新型轻量化实时语义分割网络模型。首先提出基于空间注意力引导的上采样融合模块,通过引入空间注意力和残差注意力结构设计了一种轻量的解码器,在上采样还原过程中还原空间细节,抑制冗余信息,进而融合不同来源的特征图。其次提出一种轻量化的级联空洞空间金字塔模块,利用级联的空洞卷积单元增强网络感受野,有效提取了多尺度特征;同时,使用通道分离、通道混洗、通道池化等操作,降低了多尺度聚合过程中的计算开销。在实验方面,在公开数据集Camvid上的消融实验证明了各模块的有效性。在与先进网络的对比中,显示出模型结构的在推理速度和准确性方面取得良好的平衡。在Camvid的测试集上,平均交并比为70.1%,速度为146.3帧。在实际堆场数据集上的对比实验,平均交并比为93.5%,速度为123.8帧,证明模型结构具有良好的泛化性能。

全文