矢量量化正则变分自编码器做非平行语料语音转换

王超; 俞一彪

doi:10.16798/j.issn.1003-0530.2021.07.025

摘要

基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder, VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用。本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder, VQ-REG-VAE)。在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中。在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换。由于转换时没有进行矢量量化,语义特征信息得以更好保留。客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升。

单位
苏州大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-18 00:56

矢量量化正则变分自编码器做非平行语料语音转换

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友