多尺度模态感知在文本指代实例分割中的研究与应用

刘静; 胡永利; 刘秀平; 谭红臣<sup>*</sup>; 尹宝才

摘要

文本指代实例分割(RIS)任务是解析文本描述所指代的实例，并在对应图像中分割出该实例，是计算机视觉与媒体领域中热门的研究课题。当前，大多数RIS方法基于单尺度文本/图像模态信息的融合，以感知指代实例的位置和语义信息。然而，单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息，阻碍了模型对任意大小指代实例的感知，进而影响模型对不同大小指代实例的分割。对此，设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块：前者增强模型对不同尺度实例语义与文本语义之间的融合与感知；后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此，提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明，MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能；针对文本指代不同尺度实例的分割，MMPN-RIS模型有着较好的表现。

单位
北京工业大学; 大连理工大学; 自动化学院

收藏分享被引浏览

更新时间：2024-03-20 11:23

多尺度模态感知在文本指代实例分割中的研究与应用

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友