摘要
含噪条件下的语音增强技术是语音信号领域的重要研究方向之一,对于提升语音视频通话的质量、提高人机交互、语音识别的性能具有重要作用. 为此,提出了基于扩张卷积和密集连接的语音增强网络结构,通过学习语音时频谱的频率、时间轴的上下文信息,有效提高了网络的特征表达能力. 具体来说,所提结构将扩张卷积融入到时间、频率处理的基础单元中,以确保在频率方向和时间方向上均可获得足够大的感受野,提取出深层语音特征;同时,密集连接被应用到这2个基础单元的级联结构中,由此可避免多处理模块级联带来的信息丢失,从而增强特征利用效率. 实验结果表明所提出的语音增强网络在客观语音质量评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)以及各类主观平均意见方面的总体评分,相比于现有的各类语音增强模型,均居于领先水平. 此外,所提网络对各种含噪条件的泛化能力也在实验中得以验证.
-
单位天津大学; 电子工程学院