摘要

图像语义分割是图像识别中的一个经典难题,是机器视觉研究的一个热点。但在实际应用中,会出现语义标签预测不准确、所分割对象与背景之间边缘信息损失问题,这已逐渐成为了图像理解的瓶颈。据此,提出了一种基于金字塔场景分析网络(PSPNet)的网络改进结构,在特征学习模块中将输入图在原残差网络(ResNet)的基础上通过在网络内部增加卷积、池化操作,进一步学习各个层次特征,将所学习到的多个低层次特征图与高层次特征图相加,得到新的具有更多空间位置信息的特征图;为得到丰富的上下文信息,利用PSPNet的金字塔池化结构,将特征图中全局上下文信息与不同尺度局部上下文信息相结合,进行卷积和上采样,得到最终预测图。仿真实验结果表明,所改进的方法在PASCAL VOC 2012测试集中平均交并比(Mean Intersection over Union,MIoU)达到78.5%,较基准算法提升了1.7%。