融合多模态特征与时区检测的视频摘要算法

白晨; 范涛<sup>*</sup>; 王文静; 王国中

doi:10.19734/j.issn.1001-3695.2023.02.0113

摘要

针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题，提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先，通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示，设计了一种维度平滑操作对齐两种模态特征，使模型具备全面的表征能力；其次，考虑到生成的视频摘要应具备全局代表性，因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征，获取模型在时序范围的单一向量表示；最后，通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测，并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明，在两个标准数据集SumMe与TvSum上，MTNet的表征能力与鲁棒性更强；它的F1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。

单位
上海工程技术大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 03:16

融合多模态特征与时区检测的视频摘要算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友