摘要

针对图像语义描述过程中存在的语句描述不够准确及情感色彩涉及较少等问题,提出一种基于SENet生成对抗网络的图像语义描述方法。该方法在生成器模型特征提取阶段增加通道注意力机制,使网络能够更加充分和完整地提取图像中显著区域的特征,将提取后的图像特征输入到编码器中。在原始文本语料库中加入情感语料库且通过自然语言处理生成词向量,将词向量与编码后的图像特征相结合输入到解码器中,通过不断对抗训练生成一段符合该图像所示内容的情感描述语句。最后通过仿真实验与现有方法进行对比,该方法的BLEU指标相比SentiCap方法提高了15%左右,其他相关指标均有提升。在自对比实验中,该方法在CIDEr指标上提高3%左右。该网络能够很好地提取图像特征,使描述图像的语句更加准确,情感色彩更加丰富。