摘要
基于深层神经网络(DNN)的语音识别模型不仅在单个语言上表现出色,而且在多语言信息处理领域也表现出了优异的能力。随着语音数据量的增加,高斯混合模型(GMM)在有效提升大词汇量连续语音识别系统性能以及识别效果上被神经网络(NN)模型超越。文中采用Kaldi开源语音识别平台,结合RNN语言模型和DNN模型的三种损失函数,即最大互信息量(MMI)、最小贝叶斯风险(sMBR)和最小因素错误率(MPE),在维吾尔语语料库(THUYG-20公开语料库)测试数据上分别取得了16.73%,16.55%和15.95%的词错误率。相比高斯混合模型的词错误率分别降低了2.88%,3.06%和3.66%。深层神经网络在资源匮乏的少数民族语言以及多语言信息处理上有更强的能力。
- 单位