摘要

剪辑是音视频制作中的重要环节,剪辑师需综合考虑剪辑节奏、关联性等要素,耗费大量人力和时间.从剪辑特性和实际应用出发,本文提出了一种多声学特征融合的语音自动剪辑深度学习模型(CNN-BiGRU),它可以识别媒体中的语音部分并进行艺术化的自动剪辑.模型提取了对数梅尔频谱、短时能量和短时过零率3种特征,通过多个卷积神经网络融合后输入双向门控循环神经网络.采用基于课程式学习的方式,使用先大后小的数据形式将模型训练至最佳.实验结果表明相较于传统机器学习剪辑模型,本模型能更有效地结合整体与局部的信息进行剪辑,且具有更强的鲁棒性.模型在CHiME-5测试集上的准确率高达98.36%,与人工剪辑结果十分接近且大幅缩短剪辑耗时.