摘要

针对视频描述过程中视觉特征和词特征关联度不足、训练效率低、生成的自然语言出现错误和指标分数不高的问题,提出了一种基于扩张卷积的注意力机制视频描述模型。在模型的编码阶段,采用Inception-v4对视频特征进行编码,然后将编码后的视觉特征和词特征输入到基于扩张卷积的注意力机制中,最后通过长短期记忆网络进行解码,生成视频的自然描述语句。在视频描述公共数据集MSVD上进行对比实验,通过评价指标(BLEU、ROUGEL、CIDEr、METEOR)对模型进行验证,实验结果表明,基于扩张卷积的注意力机制视频描述模型在各个指标上都有明显提升,对比基线模型SA-LSTM (Inception-v4),在BLEU4、ROUGEL、CIDEr和METEOR指标下分别提升了4.23%、4.73%、2.11%和2.45%。