基于非自回归模型中文语音合成系统研究与实现

王志超; 吴浩; 李栋; 刘益岑

摘要

针对传统语音合成质量差、自然度低和自回归模型训练时间较长，效率低等问题，提出了一种基于非自回归模型的中文语音合成方法。该方法相比于自回归模型训练效率拥有大幅提升，并在声码器中采用生成对抗网络，较传统语音合成方法合成音频质量有明显提升。该方法首先输入中文汉字经过前端处理转换为音素，再通过One-hot编码转换到音素嵌入层，通过位置编码确定音素序列位置信息，编码器中前馈网络负责将音素序列转换为隐藏序列，再添加可变信息适配器预测的音频特征，最后由解码器输出梅尔频谱到声码器生成音频波形。实验数据集采用专业中文女声10000句，实验结果表明主观意见得分为3.76，在合成质量方面明显优于传统参数式语音合成方法，训练时间只需要自回归模型的15%。

单位
国网四川省电力公司电力科学研究院; 四川轻化工大学

收藏分享被引浏览

更新时间：2024-03-15 16:58

基于非自回归模型中文语音合成系统研究与实现

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友