摘要
为实现高质量、高效率、低成本的语音合成,设计开发了一种基于全相位滤波器组频带鉴别的生成对抗网络声码器APFB-GAN.该声码器以现有的HiFi-GAN为参考,在生成器中,削减了HiFi-GAN多感受野融合模块约60%的参数.在鉴别器中做了两点改进:一是将HiFi-GAN中多尺度鉴别器与多周期鉴别器替换为基于全相位滤波器组的鉴别器,克服了原有模型无法依据语音能量非均匀频带分布,灵活进行特征特征提取的缺点;二是提出基于频带加权的多窗长的短时傅里叶变换谱损失函数,配合鉴别器更好地稳定训练.实验结果表明:APFB-GAN声码器合成的语音质量可与HiFi-GAN相媲美,且其高频细节特征更为突出,模型参数只为HiFi-GAN的28.78%,在GPU上的合成速度是HiFi-GAN的2.4倍.
-
单位天津大学; 天津职业技术师范大学; 电子工程学院