摘要
为利用少量目标语料来建立自适应的语音合成系统,提出了基于迁移学习的自适应语音合成方法。本文首先在多说话人语料数据集中,用一个256维讲者嵌入(Speaker Embedding)在模型中表征不同的说话人,然后在Fastspeech2声学模型的基础上进行改进作为声学特征提取器:尝试用参考编码器(Reference Encoder)将语音中的说话人风格进行"解耦合",以更加精确地提取到说话人的音色特征,进而训练出一个多说话人的预训练模型。在获取目标说话人少量语音(十几句话)的情况下,通过微调(Fine-tune)神经网络参数就可获得良好的自适应合成效果。最后,在目标说话人原音频和自适应生成的语音通过映射成空间向量进行对比,实验结果平均可达70%以上的相似度。
- 单位