摘要
本文提出了一种基于文本表达式理解的图像分割网络,旨在用给定的文本表达式分割出图片中的目标区域.该模型完成了对目标区域的精确定位,实现了视觉和文本的对齐,同时很好地处理了预测分歧问题.首先,使用卷积神经网络和双向门控循环神经网络分别提取视觉特征和文本特征;然后,将提取的视觉特征和文本特征融合生成多模态特征,同时使用自适应特征选择的方法提取不同尺度的视觉特征;最后,利用改进的空洞空间金字塔池化模块加快网络的训练速度,经模型的后处理操作输出分割图.本文的网络模型在数据集RefCOCO和RefCOCO+上进行训练和测试,实验表明,本文方法可有效提高模型的分割效果.
-
单位电子工程学院