摘要
针对传统语音合成质量差、自然度低和自回归模型训练时间较长,效率低等问题,提出了一种基于非自回归模型的中文语音合成方法。该方法相比于自回归模型训练效率拥有大幅提升,并在声码器中采用生成对抗网络,较传统语音合成方法合成音频质量有明显提升。该方法首先输入中文汉字经过前端处理转换为音素,再通过One-hot编码转换到音素嵌入层,通过位置编码确定音素序列位置信息,编码器中前馈网络负责将音素序列转换为隐藏序列,再添加可变信息适配器预测的音频特征,最后由解码器输出梅尔频谱到声码器生成音频波形。实验数据集采用专业中文女声10000句,实验结果表明主观意见得分为3.76,在合成质量方面明显优于传统参数式语音合成方法,训练时间只需要自回归模型的15%。
-
单位国网四川省电力公司电力科学研究院; 四川轻化工大学