摘要

当前大多数基于深度神经网络(DNN)的语音增强算法使用的均方误差代价函数没有充分利用人耳听觉感知特性,且语音可懂度没有必要关联性,为此提出一种端到端的基于DNN的语音增强框架,并将基于频域加权分段信噪比的感知相关代价函数作为优化目标来训练DNN;在此基础上,将频域加权分段信噪比和感知加权均方误差相结合,提出一种联合优化代价函数用于训练DNN,改善人耳对含噪语音的听觉感知。实验结果表明,采用深度神经网络对含噪语音进行去噪时,通过将感知相关代价函数整合到数据驱动的模型学习中,语音质量和语音可懂度显著提高。