融合多尺度特征的短时音频场景识别方法

作者:王猛; 张鹏远
来源:声学学报(中文版), 2022, 47(06): 717-726.
DOI:10.15949/j.cnki.0371-0025.2022.06.002

摘要

为解决短时音频场景识别任务中识别性能差的问题,提出一种融合多尺度特征的音频场景识别方法。首先将双声道音频中左右声道的和差作为输入,并使用长时帧长进行分帧处理,以保证提取出的帧级特征中包含足够多的音频信息。然后将特征逐帧输入到融合多尺度特征的一维卷积神经网络中,以充分利用网络中不同尺度的浅层、中层和深层嵌入特征。最后综合所有帧级软标签得到短时音频的场景分类结果。实验结果表明,该方法在国际声学场景和事件检测与分类挑战赛(DCASE) 2021短时音频场景数据集上的准确率为79.02%,实现了该数据集上目前为止的最优性能。

全文