摘要

面对海量的视频数据,视频摘要技术在视频检索、视频浏览等领域发挥着越来越重要的作用,其旨在通过生成简短的视频片段或选择关键帧集合来获取输入视频中的重要信息。现有的方法大多集中在研究视频摘要的代表性和多样性上,没有考虑到视频结构等多尺度上下文信息。针对上述问题,提出了一种基于全卷积序列网络的视频摘要模型,模型中利用时间金字塔池化对视频中的多尺度上下文信息进行提取,并利用全连接的条件随机场对视频帧序列进行标注。在SumMe和TVSum数据集上的实验表明,所提模型取得了比全卷积序列网络更好的性能,在这两个数据集上F分指标分别提高了1.6%和3.0%。