摘要

本文在DMN的基础上提出一种跨模态目标实例分割方法,旨在结合自然语言表达,利用不同模态信息从图像中分割所描述对象。首先,在视觉特征提取网络DPN92中引入CBAM注意力机制,关注空间和通道上的有用信息;其次,将BN层替换为联合BN和FRN的正则化,减少批次量和通道数对提取特征网络性能的影响,提高网络的泛化能力;最后,在三个通用数据集ReferIt和,GRef和UNC上进行仿真实验。实验结果显示,本文提出的引入CBAM注意力机制和联合正则化改进模型在mIou评价指标上,ReferIt和GRef上分别提升了1.85%和0.52%,在UNC三个验证集上分别提升了1.98%,2.22%和2.75%。表明改进模型在预测准确度方面优于已有模型。