摘要

图像描述技术,就是以图像为输入,通过数学模型和计算使计算机输出对应图像的自然语言描述文字,使计算机拥有"看图说话"的能力,是图像处理领域中继图像识别、图像分割和目标跟踪之后的又一新型任务。文中以图像描述技术的发展历程为主线,对图像描述任务的方法、评价指标和常用数据集进行了详细的综述。针对图像描述任务的技术方法,总结了基于模板、检索和深度学习的图像描述生成方法,重点介绍了基于深度学习的图像描述的多种方法,并对不同方法的实验结果进行了总结和讨论;详细介绍了图像描述任务的实验结果评价指标及其计算方法和该任务中常用的数据集;最后提出了该任务现有的问题和未来的发展方向。