摘要

图像描述是一项融合了自然语言处理和计算机视觉的综合任务,现有方法不仅存在描述性能不佳、缺失语义信息等问题,还存在模型结构与图像特征之间语义信息关联性不足的问题。针对这些问题,提出一种使用门控循环单元和卷积注意力模块进行优化的基于多模态神经网络的图像描述方法。为了验证方法的有效性,在MSCOCO2014数据集上进行实验对比,结果表明,改进方法在各项评价标准下的性能均优于原方法和其他经典算法,并且能够更好地处理图像里的关键信息和生成更加准确的图像描述句子。