摘要
随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向。视觉问答需要跨模态的理解与推理能力(图像与文本)。由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上有一定的潜力,因此提出了一种基于图卷积网络的视觉问答方法。首先使用神经网络分别提取图像和文本特征,再用图处理模块将预处理后图像和文本处理为图结构数据,然后实现基于图卷积网络的模型设计,数据训练与答案预测。通过与ReasonNet和BottomUp等模型在VQA2.0数据集上进行对比实验,验证了该方法提升了视觉问答任务的准确率。
- 单位