摘要
针对传统音频分类方法手动构造特征导致过程繁琐且准确率不高的问题,提出了一种基于改进的卷积神经网络和随机森林的音频分类方法。首先,将长音频数据分段;然后,对每段音频进行短时傅里叶变换,得到每段音频的频谱图;其次,将每段音频对应的频谱图输入到卷积神经网络中,自动提取音频的高层特征;最后,将提取的高层特征输入到随机森林,训练分类器。实验结果表明:与基于隐马尔可夫模型(HMM)的方法相比,该算法准确率提高了16. 2%;与基于支持向量机(SVM)的方法相比,准确率提高了12%。所提算法能够有效提高音频分类的准确率,且能自动提取音频高层特征,降低了特征构造的复杂度。
-
单位四川大学; 四川省计算机研究院