摘要

为了提高语音合成自然度和稳定性,提出HMM与深度神经网络相融合的,以维吾尔语作为实验语言的语音合成方法。基于深度学习的端到端语音合成方法存在生成速度慢、稳定性及可控性不够好,但是合成语音自然度高,而基于HMM的方法系统稳定性好,合成语音自然度不如端到端的方法。因此,系统前端部分利用HMM(马尔科夫模型)获取维吾尔语固有的语言特征,后端合成部分利用深度神经网络框架建立自回归模型。前端文本分析用HMM模型获取语言特征,后端合成用不同的神经网路模型,并进行了对比试验。最后对于实验结果进行了评测。实验结果验证了基于HMM+BiLSTM的语音合成方法的效果最好。