新闻类短视频关键帧摘要模型的研究与实现

崔晓丹; 刘达维; 刘逸凡; 赵志滨<sup>*</sup>; 任酉贵; 闫永明

doi:10.19678/j.issn.1000-3428.0065727

摘要

根据传播学的“声画关系”理论，新闻类短视频通过音频直接有效地传达视频内容，属于典型的“主声说”视频。现有视频摘要技术忽略了声画关系对视频内容表现的影响，导致其在特定类型短视频摘要任务中效果不稳定。针对新闻类短视频“主声”的特点，提出基于多模态特征语义相似性的新闻类短视频关键帧摘要模型。与传统融合模型不同，该模型在提取多模态特征的基础上，构建公共语义空间，通过最小化对比损失函数对图像-文本对进行联合训练，实现音频文本摘要与视频帧之间语义相似性的跨模态度量，在摘要生成任务中重点关注与音频中语义信息描述一致的图像内容，利用音频中的语义信息筛选相关关键帧，得到更准确的短视频摘要。采集450条CCTV新闻短视频和385条Bilibili自媒体新闻短视频组成实验数据集，使用F1值衡量不同模型的性能，实验结果表明，该模型在2个数据集上F1值分别达到62.8%和51.2%，相较于MSVA模型分别提升了2.1和0.8个百分点，在新闻类短视频关键帧摘要任务中具有更好的性能。

单位
东北大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-18 20:17

新闻类短视频关键帧摘要模型的研究与实现

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友