基于CBHG的Mel谱精细结构重建

唐君; 张连海; 李嘉欣

摘要

在大多数语音合成系统中，预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构，为解决此问题，提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构，最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱，从而提高合成语音的质量。实验结果表明，提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构，同时通过结合高性能、高效率的HiFi-GAN声码器，最终合成语音的平均主观意见分（Mean Opinion Score,MOS）达到4.10，相比基线提升了0.26。

单位
信息工程大学

收藏分享被引(1) 浏览

更新时间：2024-03-19 12:26

基于CBHG的Mel谱精细结构重建

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友