摘要

视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务。当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系。但是,传统的注意力机制容易忽略图像和文本的自相关信息,而且不能较好的利用图像和文本的信息差异性。因此,在本文中,我们提出了可交谈的多头共注意力网络框架来处理注意力机制的上述问题。首先,本文提出了可交谈多头注意力机制来捕捉不同注意力头之间隐藏的关系,得到增强的注意力信息。本文设计了前后不同的交谈策略去处理归一化前后注意力头之间的信息,在引入先验信息的同时减少了过拟合的风险。本文提出了交谈自注意力单元和交谈引导注意力单元,并使用编码器-解码器方式有效地组合它们来丰富视觉和文本表征。该框架针对自注意力层增加了位置编码,弥补了交谈自注意力无法捕获位置的问题,此框架使用不同的注意力策略去分别得到图像和文本向量,并使用新的多模态融合模块来更好的融合图像和文本信息,降低了对单个信息的依赖性。该模型在VQA-v2数据集上和多个知名算法进行比较,数值仿真实验表明提出的算法具有明显的优越性。