摘要

针对现有视频内容文本表述模型生成的文本表述单一,对视频内容生成文本表述不够全面的问题,提出一种融合帧级图像、音频信息的视频内容文本表述模型。首先,基于自注意力机制设计单模态嵌入层网络结构,将单模态特征嵌入进行单模态特征参数学习;然后,采用联合表示、协作表示两种方案对单模态嵌入层输出的高纬特征向量进行双模态特征融合,使模型可以更好地关注到视频中不同目标及其之间的交互关系,改善视频内容文本表述模型的性能;最后,通过大规模数据集预训练模型提取视频帧、视频所携带的音频等表征信息,送入编解码器实现视频内容的文本表述。在大型数据集MSR-VTT和LSMDC数据集上进行相关实验,实验结果表明,所提方法能够有效提升视频内容文本表述模型的性能,相较于各对比模型各项评价指标均有一定提升。所提模型在评价指标BLEU4、METEOR、ROUGEL和CIDEr上分别达到0.386、0.250、0.609和0.463的得分,模型相较于MSR-VTT挑战赛中排名前五的模型评价指标得分分别提升了0.082、0.037、0.115和0.257。

全文