摘要

为克服基于生成对抗网络的语音增强技术存在成对语音样本缺乏的问题,提出改进的循环一致性生成对抗网络(CycleGAN)的不成对数据生成模型。通过引入2-1-2D CNN生成器和PatchGAN鉴别器,使改进的CycleGAN-2-1-2D模型能更有效地学习语音样本多维度的特征,并大大缩短了训练时长。选取LibriTTS语料库中的部分纯净语音作为训练集A,从语料库中选取其他样本加3种类型的噪声作为训练集B,训练集A和训练集B作为CycleGAN-2-1-2D模型的输入参数。设置CycleGAN-2D和NMF(nonnegative matrix factorization)的语音增强模型作为CycleGAN-2-1-2D模型的对照试验,通过仿真试验对3种模型生成的语音质量进行评估。研究数据表明:相较于NMF模型,CycleGAN-2-1-2D模型生成的语音质量有了较大的提升;相较于CycleGAN-2D模型,CycleGAN-2-1-2D模型对女声的增强效果有明显提升。

全文