一种基于文本和图像的多模态目标检测方法

作者:员娇娇; 胡永利; 尹宝才*
来源:中国传媒大学学报(自然科学版), 2023, 30(03): 41-49.
DOI:10.16196/j.cnki.issn.1673-4793.2023.03.005

摘要

近年来,网络上涌现了大量的多模态数据(图像、文本、视频、音频等),由于不同模态的数据之间具有互补性,因此,利用不同模态的数据进行分类、检测、分割等任务已成为计算机视觉领域的研究热点。目标检测作为其中的一个重要方向,得到了越来越深入的研究。在传统的目标检测算法中,研究者们仅利用图像这一单模态的数据来实现对目标的分类和定位,这种做法没有考虑文本对目标检测算法性能的影响。本文重点研究基于文本和图像的多模态目标检测算法,首先利用传统的Faster RCNN算法提取图像中的候选目标的特征,同时利用Bi-GRU算法提取文本的特征;其次,设计了一种有效的协同注意力模型来促进文本和图像这两种不同模态数据之间的融合。在大型的目标检测数据集MSCOCO上的实验结果表明,本文方法的检测精度高于仅利用图像信息的目标检测算法的精度,充分证明了本文方法的有效性。

全文