摘要
语音增强技术作为各项语音信号处理任务的前端,其性能好坏会对下游任务造成直接影响。语音增强的目的是去除带噪语音信号中的各种背景噪声,以获取原始干净语音信号。传统基于信号处理和统计学的语音增强算法,一般对于噪声具有平稳性假设,从而在非平稳噪声环境下性能欠佳。近年来,随着深度学习技术的发展,基于深度神经网络的语音增强技术研究愈来愈成为研究的热点。本文首先介绍了语音增强任务的降噪信号模型,然后进一步分析了基于深度学习的语音增强模型的研究进展。根据从带噪语音估计干净语音的建模目标的不同,可以将基于深度学习的语音增强模型大致分为两类:基于判别式的语音增强模型和基于生成式的语音增强模型,本文着重调研基于生成式的语音增强算法模型,详细阐述了每一种生成模型的机制和相关研究进展和性能表现。最后探讨了基于生成模型的语音增强中存在的难题,并对语音增强算法未来的研究进行了展望。
-
单位中国科学技术大学; 平安科技(深圳)有限公司; 平安科技(深圳)有限公司