摘要

针对现有无监督视频摘要算法对视频帧重要性判断不准确的问题,提出一种基于深浅层特征融合的无监督视频摘要算法。视频帧的深层特征由卷积神经网络(CNN)进行提取;浅层特征先由加速稳健特征(SURF)算子提取,再使用词袋(BOW)模型进行编码;最后将深层特征与浅层特征进行融合,丰富特征描述符的信息,作为网络模型的输入。使用双向长短期记忆网络(BiLSTM)对时序信息建模并输出帧重要性得分,采用强化学习的方式优化模型。在生成静态视频摘要时,设计了一个基于局部极大值的关键帧筛选方法,遵循了原视频的时序结构同时避免冗余。在SumMe和TVSum数据集上与多个无监督视频摘要算法进行对比,实验结果表明所提算法能够对视频内容做出更准确的判断,并生成了更高质量的摘要。