视觉问答技术(Visual Question Answering,VQA)是一项综合了计算机视觉、自然语言理解、知识表示与推理的综合性技术,相比于图像处理、文本处理、自然语言处理等专用人工智能技术,是面向通用人工智能研究的前沿探索。介绍了视觉问答技术的问题描述,分析和总结了针对问题的基准方法和前沿方法研究与探索,分析了问题的研究难点,探讨了问题的发展方向。