摘要
<正>尽管传统的文本到语音的合成(TTS:Text To Speech)研究通常将文本到语音的过程分为多个步骤或者模块,比如编码器,解码器和波形合成器,但现在可以用一种端到端的合成模型将整个过程统一为一个单一过程。在我们的项目中,我们应用了单词/音素映射,信号过滤器和机器学习技术(支持向量回归(SVR),简单神经网络,以及具有注意力模型的Seq-2-Seq算法)来将文本转换为语音。结果是我们的合成系统可以通过输入单个文本成功生成wave文件。此外,seq-2-seq模型获得的最高MOS(Mean Opinion Score即平均主观意见分)为2.5,这是由一组听众确定的,高于其他两个基线模型。
- 单位