摘要
背景噪声会严重影响语音的质量和可懂度,从一段带噪语音中分离出目标语音,尽可能地降低背景噪声对目标语音的影响,是语音增强技术的目标.语音增强技术在自动语音识别、电话通信等领域有着广泛的应用,近年来,该技术也受到了学者的关注.在真实噪声环境中,带噪语音的背景噪声往往十分复杂,传统的语音增强方式无法很好地适应各类噪声场景.针对复杂的非线性问题,基于深度学习的语音增强方法具有很强的适应能力.然而,对于真实噪声环境,模型的增强性能往往因为泛化性不足而下降.为了进一步提升语音增强模型在真实噪声环境下的增强性能,提出了一种基于抛物面焦点麦克风预处理和迁移学习的语音增强方法.该方法利用抛物面焦点麦克风采集带噪语音和噪声,通过物理汇聚增强的方式,对带噪语音进行预处理.再利用迁移学习方法,小样本微调训练LSTM-convolutional-BLSTM编解码(LSTM-convolutional-BLSTMencoder-decoder,LCLED)网络的编码器和输出层,冻结解码器,通过算法模型,适应真实噪声环境特性,进一步增强语音.所提出的方法通过物理途径和算法途径两个方面,构建了一整套端到端的语音增强系统,提升了整个系统的语音增强性能,降低了深度神经网络算法模型的复杂度.实验结果表明,所提出的方法可以有效地增强真实噪声环境下的带噪语音.
- 单位