基于特征增强和语义相关性匹配的图像文本检索方法

陈佳; 张鸿

doi:10.11772/j.issn.1001-9081.2023060766

摘要

为实现图像文本检索中图像与文本的精确语义连接，提出一种基于特征增强和语义相关性匹配（FESCM）的图像文本检索方法。首先，通过特征增强表示模块，引入多头自注意力机制增强图像区域特征和文本单词特征，以减少冗余信息对图像区域和文本单词对齐的干扰；其次，通过语义相关性匹配模块，不仅利用局部匹配捕获局部显著对象之间的对应相关性，还把图像背景信息融入图像全局特征，利用全局匹配实现精确的全局语义相关性；最后，通过局部匹配分数和全局匹配分数获取图像和文本的最终匹配分数。实验结果表明，基于FESCM的图像文本检索方法在Flickr8k和Flickr30k基准数据集上的召回率总值比扩展的视觉语义嵌入方法分别提升了5.7和7.5个百分点，在MS-COCO数据集比双流层次相似度推理方法提升了3.7个百分点。因此该方法可以有效提高图像文本检索的准确度，实现图像与文本的语义连接。

单位
武汉科技大学; 智能信息处理与实时工业系统湖北省重点实验室

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 16:31

基于特征增强和语义相关性匹配的图像文本检索方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友