摘要
为提高噪声环境下说话人识别系统的抗噪性能,提出一种基于MRACC特征和LSTM网络的鲁棒说话人识别方法。首先采用一种动态调整参数的改进型谱减法进行语音前端降噪处理,接着提取改进的多分辨率听觉倒谱系数特征(Multi-Resolution Auditory Cepstral Coefficient, MRACC),特征提取时采用幂函数代替对数函数模拟人耳的非线性压缩特性。最后将提取的特征参数送入基于长短时记忆网络(Long Short Term Memory, LSTM)的说话人模型进行识别。仿真实验表明,在低信噪比情况下,前端语音降噪处理能有效提高系统的识别性能。在说话人识别系统中MRACC特征的识别性能优于传统的MFCC(Mel Frequency Cepstral Coefficient, MFCC)和LPCC(linear predictive cepstrum coefficient, LPCC)特征,并且具有一定的鲁棒性。
- 单位