摘要

图像语义描述模型通常采用编码器-解码器方式实现图像语义描述,模型存在对图像特征利用不充分,图像目标的位置信息提取不足等问题。针对此问题,提出在编码器部分融合注意力机制的图像语义描述算法,通过解码器上下文信息对不同图像特征的注意力权重分配,从而提高图像语义描述的表达能力。并在Flickr30k和MSCOCO数据集上进行了验证,模型在BLEU-4评价指标上分别提升了1.9%和0.8%,实验证明了本文算法的有效性。