摘要

图像描述解决了在给定图像后自动得到相应的描述性文本的难题,是结合计算机视觉、自然语言处理和机器学习的一个交叉领域,也是一个极具挑战性的人工智能研究问题。首先概述了图像描述问题的核心原理及发展历程,归纳了七类常用研究方法,包括基于物体识别和属性检测的模型、基于多示例学习的算法、编码器-解码器框架、注意力机制、强化学习算法、生成对抗以及混合模型。同时介绍了图像描述在图像检索、教育领域、医疗辅助、新闻媒体、智慧交通等方面的应用。最后,总结了图像描述的整体发展趋势,并对其进一步研究方向进行了展望。综述表明,高层语义和注意力机制的引入大大提升了图像描述算法的准确度和识别效率。整体图像描述算法框架存在从链式结构向层级结构的转变趋势,如何使用统一的架构进行多模态信息处理有待进一步的研究。