摘要

随着人工智能的快速发展,对跨模态的研究也渐渐地受到了科研人员的关注。基于深度学习的视觉问答(Visual Question Answering,VQA)模型在数据集上的准确率不断提高,但这些模型也表现出了共同的缺点,即对模态的利用不平衡。本文概述了视觉问答语言先验性领域的多篇论文,对比了各种方法的优缺点,并在现有方法的基础上展望未来缓解视觉问答语言先验性的发展方向。

  • 单位
    阜阳师范大学