摘要
由于环境声音复杂的结构,环境声音识别是一个具有挑战性的问题。本文提出一种将特征融合与改进卷积神经网络算法相结合的环境音识别方法。首先针对原始音频文件,提取从波形中学习到的特征以及传统音频特征,分别为MFCC(梅尔倒谱系数)、GFCC(伽玛通频率倒谱系数)、频谱对比度和CQT(恒定Q变换);然后将提取到的特征分别输入到端到端的神经网络SF-CNN和多尺度卷积神经网络MS-CNN中进行识别;最后根据D-S证据理论决策规则进行决策级融合,输出最终识别结果。通过在公开数据集ESC-50进行的实验结果表明,本文提出的模型能够提高识别准确率,且优于单特征模型,更适用于复杂的声学场景。
-
单位河海大学; 电气学院