摘要

现阶段用于语声转换的深度学习方法多是通过使用大量的训练数据来生成高质量的语声。该文提出了一种基于平均模型和误差削减网络的语声转换框架,可用于有限数量的训练数据。首先,基于CBHG网络的平均模型使用排除源说话人和目标说话人的多说话人语声数据进行训练;然后,在有限数量的目标语声数据下对平均模型执行自适应训练;最后,提出一种误差削减网络,可以进一步改善转换后语声的质量。实验表明,所提出的语声转换框架可以灵活地处理有限的训练数据,并且在客观和主观评估方面均优于传统框架。