轻量且基频可预测的端到端语音合成系统

梁婷; 艾斯卡尔·艾木都拉<sup>*</sup>; 刘煌; 徐颖

摘要

提出了一种轻量级的基频可控的完全端到端的语音合成模型.该模型基于目前最流行的完全的端到端的语音合成模型VITS做出了三处改进，使得合成的语音韵律感更强，从而提高语音合成的自然度和表现力，同时提高发音的准确性和推理速度.首先，引入帧先验网络得到细粒度的均值方差表示，且引入音素预测器和CTC loss以提高发音的稳定性.其次，在模型中使用音素真实时长对齐文本和音频帧，并且加入F0预测器，增强语音的韵律感.另外，用多频带和短时傅立叶变换替换原始模型中的Decoder,有效提高了模型的推理速度.最后，使用MOS测试和RTF作为实验主观和客观的评判标准.实验证明，模型在音频自然度和表现力方面提高了至少5%,且相比原始VITS推理速度提高了3倍.

单位
新疆大学

收藏分享被引浏览

更新时间：2024-03-15 16:19

轻量且基频可预测的端到端语音合成系统

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友