随着深度学习在计算机视觉和自然语言处理领域不断推广应用,跨视觉领域和自然语言学科的视觉问答技术成为近年来研究热点。当输入图像和自然语言问题时,视觉问答技术能够理解图像和问题中的信息自动回答问题。文章梳理近年来视觉问答技术的研究进展,分析了视觉问答技术的工作机制、模型的分类和公用数据集的特点,总结了目前研究工作的不足及发展方向。