融合多头自注意力机制和共同注意的图像问答模型

官巍; 张晗; 马力

摘要

为了获取到更加细粒度的图像表示，防止图像特征获取时关键信息的丢失，论文采用融合多头自注意机制的图像特征提取模型，来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意，增强问题文本特征与图像特征之间的关联性，获取图像特征中与问题文本相关的信息。将最终获取到的图像特征与问题特征进行多模态特征融合，并对融合特征进行分类预测。实验结果表明，论文方法在VQA1.0数据集上，总体准确率为64.6%，在VQA2.0数据集上，总体准确率为63.9%，从而验证了论文方法的有效性，相比一些经典的方法都有较好的提升。

单位
西安邮电大学

收藏分享被引浏览

更新时间：2024-03-15 14:29

融合多头自注意力机制和共同注意的图像问答模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友