摘要

为了提升轻量级自然语言描述生成效果与效率,以视频图像作为研究对象,提出基于深度学习的轻量级自然语言描述生成算法,分析自然语言生成后能否对视频图像内容作出充分解读。采用深度迁移学习算法提取视频图像中的语义特征与帧流语义特征,建立多特征融合的轻量级自然语言描述生成模型,对所提取的图像语义特征与帧流语义特征实施融合后,导入视频自然语言描述模型,生成自然语言描述。实验结果表明,所提算法不受视频图像类型、数量的约束,在不同条件下所生成的视频图像轻量级自然语言描述均符合视频图像内容,且对视频图像特征的提取、融合效果较好,可为轻量级自然语言描述生成工作提供有效协助。

  • 单位
    信息工程大学