摘要
针对在无监督条件下,对语音信号提取语音表示的问题,提出了Do-VQVAE模型。提出的Do-VQVAE模型主要基于矢量量化变分自编码器的结构进行实现,并在此基础上,引入深度方向超参数化卷积层构成编码器。该模型通过编码器-解码器的结构,以无监督的方式提取语音信号的特征,将编码器的输出通过码书的映射进行量化,得到离散的语音表示。在实验过程中还引入了互信息神经估计,旨在提高学习到的语音表示的说话人不变性。提出的模型在ZeroSpeech 2019挑战的数据集上进行了训练和测试,经过测试,模型的ABX错误率相比于基线和卷积VQ-VAE模型都有明显降低,并取得了与最好系统相媲美的结果。
-
单位信息工程大学