摘要
图像标题生成是通过机器产生描述图像的语句,属于多模态领域的重要研究方向之一.现有的工作大多数有两点不足:1)采用单一的图像特征,导致在非结构化场景中无法完全描述图像中更加细粒度的内容信息;2)模型大多数完全依赖图像的特征生成句子,而没有引入外部知识作为辅助信息.针对上述两点,提出一种互注意力和门控机制的方法.在MSCOCO2014数据集上和Flickr 30k数据集上分别进行实验,结果在各项指标上相较于主流模型均有一定的提升,表明该方法对图像内容的理解更加全面且生成的句子更加丰富.
- 单位