基于空间关系与频率特征的视觉问答模型

付鹏程; 杨关<sup>*</sup>; 刘小明; 刘阳; 张紫明; 成曦

doi:10.19678/j.issn.1000-3428.0062339

摘要

视觉问答作为多模态数据处理中的重要任务，需要将不同模态的信息进行关联表示。现有视觉问答模型无法有效区分相似目标对象且对于目标对象之间的空间关系表达不准确，从而影响模型整体性能。为充分利用视觉问答图像和问题中的细粒度信息与空间关系信息，基于自底向上和自顶向下的注意力(BUTD)模型及模块化协同注意力网络(MCAN)模型，结合空间域特征和频率域特征构造多维增强注意力(BUDR)模型和模块化共同增强注意力网络(MCDR)模型。利用离散余弦变换得到频率信息，改善图像细节丢失问题。采用关系网络学习空间结构信息和潜在关系信息，减少图像和问题特征出现对齐错误，并加强模型推理能力。在VQA v2.0数据集和test-dev验证集上的实验结果表明，BUDR和MCDR模型能够增强图像细粒度识别性能，提高图像和问题目标对象间的关联性，相比于BUTD和MCAN模型预测精确率分别提升了0.14和0.25个百分点。

单位
西安电子科技大学; 中原工学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 11:23

基于空间关系与频率特征的视觉问答模型

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友