摘要

为了提高视觉问答模型回答复杂图像问题的准确率,提出了面向视觉问答的跨模态交叉融合注意网络(CCANs)。首先,提出了一种改进的残差通道自注意方法对图片进行注意,根据图像整体信息来寻找重要区域,从而引入一种新的联合注意机制,将单词注意和图像区域注意结合在一起;其次,提出一种“跨模态交叉融合”网络生成多个特征,实现将两个动态信息流整合到一起,每个模态内产生有效的注意流,其中对联合特征使用逐元素相乘的方法。此外,为了避免计算成本增加,网络之间共享参数。在VQA v1.0数据集上的实验结果表明,该模型的准确率达到67.57%,较MLAN(Multi-level Attention Networks)模型提高了2.97%,较CAQT(Co-Attention network with Question Type)模型提高了1.20%等,有效提高了视觉问答模型的准确率,说明了该方法的有效性和鲁棒性。