视觉场景理解是机器视觉与自然语言处理相融合的热点问题,实现场景理解将有助于盲人辅助系统、智能机器人交互、以及无人驾驶等领域研究的发展。从视觉场景理解的基本概念出发,介绍了视觉场景理解技术的相关理论及最新研究成果,并对基于搜索的模型、基于模板匹配的模型和基于编码-解码框架的模型、以及基于注意力模型的模型进行详细描述与分析。讨论视觉场景理解的最新技术动态,分析视觉场景理解的发展趋势并指出未来研究方向。