摘要
提出了一种基于深度学习的声信号分类识别方法,将声场环境中声源目标的识别等效为声场信号—特定声源的端到端学习过程,建立一种以log-mel能量为声信号特征的预提取方法,以深度残差网络作为特征自动提取及分类的声信号分类识别模型。在两个大型数据集上对模型性能进行了验证,实验结果表明,本文提出的深度残差网络模型在DCASE2019数据集和UrbanSound8K数据集上能够实现80.2%和76.4%的识别精度,在声源探测领域具有一定的应用价值。
-
单位中北大学; 北方科技信息研究所