摘要

为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法。卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性。利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基。在转换阶段,通过时频基替换实现对源说话人语音的转换。相对于传统方法,本方法能够更好地保存和转换语音帧间相关性。实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度。

  • 单位
    自动化学院; 中国人民解放军陆军工程大学