摘要

针对现有指代分割算法对图像整体场景理解不充分以及模态间信息交互欠缺的问题,提出一种基于Transformer与多层次模态融合的指代分割方法。首先,使用BERT与金字塔池化Transformer(pyramid pooling Transformer, P2T)抽取文本特征和多尺度视觉特征,捕获全局上下文信息,强化模型对图像的整体感知;其次,使用多头注意力机制融合文本特征与各尺度视觉特征,促进跨模态信息之间的多层次深度交互;最后,引入坐标注意力调节(CA Adjustmen)模块,以自适应的权重聚合上述多模态特征和视觉特征,将文本信息的引导嵌入视觉编码的各个阶段,提升跨模态信息表示在语义空间中的一致性。在RefCOCO、RefCOCO+和G-Ref数据集上进行训练和测试,结果表明,所提方法具有较低的模型复杂度,并可以准确定位和分割出文本指代的目标。