摘要
针对图像文本检索的关键挑战,即实现图像与文本的精确语义连接,提出了一种基于特征增强和语义相关性匹配(Feature Enhancement and Semantic Correlation Matching, FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制来增强图像区域特征和文本单词特征以减少冗余信息对图像区域和文本单词对齐的干扰;其次,通过语义相关性匹配模块,不仅利用局部匹配捕获局部显著对象之间的对应相关性,还把图像背景信息融入到图像全局特征,利用全局匹配实现精确的全局语义相关性;最后,通过局部匹配分数和全局匹配分数以获取图像和文本的最终匹配分数。实验结果表明,所提方法在Flickr8K和Flickr30K基准数据集上比扩展的视觉语义嵌入(VSE∞)的召回率总值(Rsum)分别提升了5.7和7.5个百分点。在MS-COCO数据集比双流层次相似度推理(TSHSR)的召回率总值(Rsum)提升了3.7个百分点。因此该方法可以有效提高图像文本检索的准确度,实现图像与文本的语义连接。
-
单位武汉科技大学; 智能信息处理与实时工业系统湖北省重点实验室