摘要
DNN-HMM作为语音识别中的一种混合建模技术,由深度神经网络和隐马尔可夫模型组成。在使用蒙古语语料库构建DNN-HMM声学模型的过程中,为了研究DNN-HMM结构对蒙古语声学建模的影响以及蒙古语语料库规模与DNN-HMM声学模型结构的关系,通过设计DNN-HMM声学模型中DNN的结构,该文提出Rectangle DNN-HMM、Trapezoid DNN-HMM、Polygon DNN-HMM和Hourglass DNN-HMM四种结构的DNN-HMM声学模型,并以Kaldi实验平台为基础进行实验,选取音素作为建模单元,使用三种规模的蒙古语语料库分别构建四种结构的DNN-HMM声学模型。深度结构和宽度结构实验结果表明,深度为6层的Polygon DNN-HMM结构适合蒙古语声学模型建模;随着语料库规模的增大,通过适当增加声学模型的宽度,可以使声学模型的每一层都能学习到更丰富的语音特征,提高语音识别的准确率。
- 单位