摘要
提出了一种轻量级的基频可控的完全端到端的语音合成模型.该模型基于目前最流行的完全的端到端的语音合成模型VITS做出了三处改进,使得合成的语音韵律感更强,从而提高语音合成的自然度和表现力,同时提高发音的准确性和推理速度.首先,引入帧先验网络得到细粒度的均值方差表示,且引入音素预测器和CTC loss以提高发音的稳定性.其次,在模型中使用音素真实时长对齐文本和音频帧,并且加入F0预测器,增强语音的韵律感.另外,用多频带和短时傅立叶变换替换原始模型中的Decoder,有效提高了模型的推理速度.最后,使用MOS测试和RTF作为实验主观和客观的评判标准.实验证明,模型在音频自然度和表现力方面提高了至少5%,且相比原始VITS推理速度提高了3倍.
- 单位