摘要

传统视觉问答大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答除了视觉信息以外还关注了图像中的文本信息,它能够更加准确并高效地回答问题。近年来,文本视觉问答已经成为了多模态领域的研究热点方向,它在包含文本信息的场景如自动驾驶、场景理解等领域有重要的应用前景。阐述了文本视觉问答的概念以及存在的问题与挑战,从方法、数据集和未来研究方向等方面对文本视觉问答任务进行了系统性的分析。重点分析了现有的文本视觉问答研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对文本视觉问答方法进行阐述,总结了不同方法之间的优劣,并分析对比现有方法在公开数据集中的表现。介绍了4种常用的公共数据集,并对其特点和评价指标进行分析。在此基础上,探讨了当前文本视觉问答中存在的问题与挑战,并对未来研究方法进行了展望。

全文