基于统计机器学习的端到端的语音合成研究

徐晨煜

doi:10.19353/j.cnki.dzsj.2020.06.046

摘要

<正>尽管传统的文本到语音的合成(TTS:Text To Speech)研究通常将文本到语音的过程分为多个步骤或者模块,比如编码器,解码器和波形合成器,但现在可以用一种端到端的合成模型将整个过程统一为一个单一过程。在我们的项目中,我们应用了单词/音素映射,信号过滤器和机器学习技术(支持向量回归(SVR),简单神经网络,以及具有注意力模型的Seq-2-Seq算法)来将文本转换为语音。结果是我们的合成系统可以通过输入单个文本成功生成wave文件。此外,seq-2-seq模型获得的最高MOS(Mean Opinion Score即平均主观意见分)为2.5,这是由一组听众确定的,高于其他两个基线模型。

单位
中国人民大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-13 07:43

基于统计机器学习的端到端的语音合成研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友