摘要
为了获取到更加细粒度的图像表示,防止图像特征获取时关键信息的丢失,论文采用融合多头自注意机制的图像特征提取模型,来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意,增强问题文本特征与图像特征之间的关联性,获取图像特征中与问题文本相关的信息。将最终获取到的图像特征与问题特征进行多模态特征融合,并对融合特征进行分类预测。实验结果表明,论文方法在VQA1.0数据集上,总体准确率为64.6%,在VQA2.0数据集上,总体准确率为63.9%,从而验证了论文方法的有效性,相比一些经典的方法都有较好的提升。
- 单位