随着深度学习在图像处理和自然语言处理等领域的迅速发展,基于图像处理和自然语言处理的视觉问答任务也受到了越来越多的关注。通过对近年来视觉问答相关的大量模型进行分析,将视觉问答模型划分为模态融合模型,注意力机制模型,模块化模型,基于外部知识的模型,处理语言先验的模型及关系推理的模型等。总结分析了视觉问答技术最新进展及现有方法的局限性,对视觉问答技术的未来发展方向进行展望并给出了一些可行的建议。