摘要
近年来编码器和解码器组成的深度神经网络在图像描述任务中取得了很好的表现,一般编码器采用深度卷积神经网络,解码器采用循环神经网络.针对循环神经网络存在的梯度消失问题,在图像描述任务中表现为循环神经网络后续时间片生成的单词缺乏先前的信息引导,提出了记忆助手的方法,并给出了一种面向大规模中文数据集的多模态神经网络模型.该模型采用深度卷积神经网络(Inception-v4、Inception-ResNet-v2)和注意力机制提取图像视觉特征,在循环神经网络中引入记忆助手来引导句子的生成.实验证明,在AI CHALLENGER测试集中,这种模型显著地提高了各项评价指标.
- 单位