摘要

针对语音识别系统在低资源条件下,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,文章提出基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足。该模型在声学特征方面,通过基于瓶颈(bottleneck, BN)层的神经网络来进行提取,从而提高声学特征的可区分性与鲁棒性,同时在训练过程中引入Dropout策略来防止过拟合问题;在声学模型方面,采用子空间高斯混合模型(subspace Gaussian mixture model, SGMM),使得模型参数规模显著降低56.5%。同时,这两方面的改进也提升了低资源语音识别系统的识别率,TIMIT语音数据库实验表明,采用该模型,与GMM-HMM模型相比提高8.0%,与BN-GMM-HMM模型相比提高3.6%。这些优点对该模型在低功耗需求的硬件平台上实现部署有极大的帮助。