摘要
模型建立是语音增强系统的重要一环,对最终系统性能起着决定性的作用。针对语音增强系统在低信噪比和非平稳噪声环境中性能不佳的问题,提出一种基于组合深层模型的语音增强系统。首先,使用深度神经网络(deep neural network,DNN)从含噪语料中估计掩蔽值;然后,将掩蔽值通过前后帧拼接转化为灰度图送入卷积神经网络(convolutional neural network,CNN)进行识别;最后,用识别出的掩蔽矩阵合成目标语音。实验证明,与单纯使用DNN进行掩蔽值估计的系统相比,联合DNN和CNN的语音增强系统在各项评价指标中均得到改进,尤其在低信噪比和非平稳噪声环境中提升更为明显。