摘要

深度学习框架下的图像描述模型存在对图像特征选择不准确、利用不充分的问题,导致生成的图像描述语句整体质量不高。为此,提出了一种基于注意力特征自适应校正的图像描述模型。应用卷积神经网络提取图像特征,融合注意力机制,能够在有序输出单词的同时动态聚焦在图像的各个区域,从而得到带有位置信息的注意力特征;通过一个通道激活层全面捕获通道之间依赖关系,进行注意力特征自适应校正,提高特征表示能力,进而提升由长短期记忆(LSTM)网络生成的图像描述语句质量。在MS COCO、Flickr8K、Flickr30K三个标准数据集上对模型进行对比实验,实验结果表明,所提的模型在MS COCO数据集上的BLEU1、BLEU2、BLEU3、BLEU4、Meteor、CIDEr得分分别可达到69.4%、52.3%、38.6%、28.5%、23.3%和83.6%,优于传统神经网络图像描述模型,能够生成更准确的图像描述。