摘要
当前的图像描述模型在提取图像关键信息时精度不高,导致生成的描述语句不准确。为了更加细致和全面地学习图像主体区域特征,在"Squeeze-and-Excitation-block"的基础上进行改进,设计了通道注意(Channel-Att)模块,通过调整图像特征在通道方向的权重,进而提高图像特征的表达能力,提出了一种结合通道注意的图像描述方法。用VGG16卷积神经网络获取图像特征,通过Channel-Att模块,建立图像特征通道之间的依赖关系,得到具有通道维度权重信息的图像特征图,用掩膜卷积神经网络(masked convolutions neural network,MCNN)对获取特征进行解码,最终得到图像描述语句。在MS COCO 2014数据集上进行实验,结果显示该方法与传统注意力机制相比,具有更好的图像描述性能,在Bleu1、METEOR、ROUGE、CIDEr、SPICE指标上的得分均有提高。
-
单位北京信息科技大学; 自动化学院