单向句法依存关系指导下的跨模态检索

作者:张知奇; 袁鑫攀*; 曾志高
来源:现代信息科技, 2023, 7(10): 74-79.
DOI:10.19850/j.cnki.2096-4706.2023.10.019

摘要

大多数现有的跨模态检索方法仅使用每个模态内的模态内关系或图像区域和文本词之间的模态间关系。文章中提出了一种基于自然语言的句法依存关系的视觉语言模型,称为Dep-ViLT。通过句法依存分析,构建句法依存树,利用单向的句法依存关系增强核心语义的特征表达,促进语言模态与视觉模态的特征交互。实验表明,Dep-ViLT对比现有的SOTA模型召回率(R@K)平均提升了1.7%,最高提升2.2%。最重要的是,Dep-ViLT在具有复杂语法结构的长难句中依然表现良好。

全文