基于VQ-VAE与Do-Conv层的无监督语音表示学习

刘雪鹏; 张文林; 陈紫龙

摘要

针对在无监督条件下，对语音信号提取语音表示的问题，提出了Do-VQVAE模型。提出的Do-VQVAE模型主要基于矢量量化变分自编码器的结构进行实现，并在此基础上，引入深度方向超参数化卷积层构成编码器。该模型通过编码器-解码器的结构，以无监督的方式提取语音信号的特征，将编码器的输出通过码书的映射进行量化，得到离散的语音表示。在实验过程中还引入了互信息神经估计，旨在提高学习到的语音表示的说话人不变性。提出的模型在ZeroSpeech 2019挑战的数据集上进行了训练和测试，经过测试，模型的ABX错误率相比于基线和卷积VQ-VAE模型都有明显降低，并取得了与最好系统相媲美的结果。

单位
信息工程大学

收藏分享被引浏览

更新时间：2024-03-19 12:03

基于VQ-VAE与Do-Conv层的无监督语音表示学习

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友