摘要
声学场景中包含着很多长时特征和短时特征。本文提取环境声的能量信息,批量生成声音场景的三维语谱图,作为卷积神经网络的输入。神经网络采用卷积层和下采样层重复交叠,整体网络采用六层网络结构,最终经过softmax方法进行多分类。实验采用DCASE2017竞赛数据集作为素材,对15类6300段音频进行训练测试,结果表明,语谱图特征与卷积神经网络相结合的算法能够很好的提取长时特征和短时特征,使得最终分类准确率较高,优于网站基线系统的分类结果。
-
单位中国传媒大学