摘要
针对立体声音频采集设备逐渐普及的趋势,本文提出了一种保留立体声相位信息的声音场景分类算法。在预处理阶段,根据左右通道的相位信息对音频样本进行源环境提取,生成一种全新的四通道特征。在此基础上,集成多个卷积神经网络,搭建一个针对立体声音频录音的声音场景分类系统。区别于现有声音场景分类系统只使用时频谱的幅度信息,本文所提出的方法保留了立体声音频的相位信息。这使得声学特征中所包含的空间方位信息更丰富,立体声音频的优势得到发挥。实验结果证明保留立体声相位信息的声音场景分类系统具有更好的性能,在2019年IEEE音频和声学信号处理技术委员会举办的声音场景分类赛事中相比于基线系统的整体识别准确率提升了18.3%。
- 单位