多模态数据融合与检索技术研究

杜鹏举

doi:10.14016/j.cnki.1001-9227.2023.10.023

摘要

对跨模态数据检索精确性问题，提出一种基于多模态数据融合的检索方法。采用CNN+Bi＿LSTM与Glove+Bi＿GRU的方法分别对图片和文本数据进行编码，并通过Transforme+LSTM对编码后数据分别提取图像和文本的语义特征，使用同模态下与不同模态间的多种相似度损失函数，对提取的图像和文本语义特征进行监督和优化。最终根据查询样本与检索结果之间的语义相似度，确定正确检索结果。实验证明，设计的多模态数据融合与检索模型，相较于其他跨模态搜索分类模型，辨别损失更低。且在模型各部分功能上，无论是引入LSTM的多模态特征提取模块，还是基于双尺度相似性计算的语义建模方法，都在数据检索中发挥了一定的作用，当k=12时，本模型相较于传统特征提取模型R@K均值9.9,相较于仅采用中线性分类器代替双尺度相似度的本模型、与仅移除LSTM使用三个头进行语义特征提取的本模型，R@K均值分别高出4.3、2.0;mAP的均值相较于其他三个模型分别高出0.12、0.07、0.03。相较于其他基线跨模态数据检索模型而言，提出的多模态数据融合与检索模型则具有更好的检索结果。当k=12时，相较于LSCO、MADLG、DMASA检索方法，本模型的R@K均值分别高出8.3、4.3、1.3,mAP的均值分别高出0.8、0.4、0.1,具有一定的优越性。

单位
榆林学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-15 14:25

多模态数据融合与检索技术研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友