摘要

针对当前基于深度学习的语音增强算法中忽略语音相位作用的问题,提出一种基于自动编码生成对抗网络的语音增强算法。采用一种由自动编码器(AE)与生成对抗网络(GAN)相结合的综合学习框架,在语音波形层面进行操作即端到端处理,充分利用时域上的信息。AE自动提取语音特征,有监督的学习带噪语音与纯净语音之间的非线性关系,将语音建模为概率模型中标签和潜在属性的组合;在反向传播时,判别网络和分类器采用交叉熵损失函数,生成网络采用平均差异损失函数,这种不对称损失函数使GAN训练更加稳定。增强后的样本验证了所提算法的可行性,客观评估验证了其有效性,整体性能优于DNN的算法。

全文