摘要

针对现有基于深度学习图像描述生成模型,在图像特征编码阶段,由于编码器提取的图像特征较为单一,图像信息利用不充分,造成文字对图片内容描述得不够准确、语义较模糊的问题,在VGG19基础上,改进现有模型对图像特征的编码形式,通过提取和融合图像多尺度特征的方法,获取更丰富的图像信息。在MSCOCO数据集上进行训练和测试,实验结果表明,提出的模型能够生成更加准确、完整,更有意义的图像描述语句。