摘要
传统语音转换方法利用说话人声音特征映射实现,容易造成过平滑(over-smoothing)和过拟合(over-fitting)问题。本文从语音信号内容与形式分离角度,利用隐变量模型提出了一种全新的语音转换方法。首先利用包含两个隐变量因子的隐变量模型(Latent Variable Model,LVM)建立语音信号的生成模型;然后采用最大似然方法把语音信号分解成表示语义的内容信息和体现说话人特征的形式信息,并估计出模型参数;最后基于LVM生成模型,利用说话人形式替换方法实现语音转换。主、客观测试结果表明,在相同训练集条件下,本文提出的语音转换方法性能明显优于GMM方法,并且隐变量模型和传统的双线性模型(Bilinear Model)相比,由于采用非线性关系描述内容与形式之间的相互作用,因此分离效果更好,语音转换质量更高。
-
单位中国人民解放军陆军工程大学; 自动化学院