摘要

为了提高带有口音的说话人的语音识别的准确率,提出一种有向无环图-深度置信网络多口音分类的方法.通过提取说话人的梅尔频率倒谱系数及其一阶、二阶差分特征,获取语音参数的静态特性和动态特性.使用主成分分析对特征参数进行降维,减少了计算复杂度.使用基于有向无环图拓扑结构的深度置信网络,不仅缩短了多口音分类的测试时间,同时能够得到较高的分类精度.使用TIMIT语音库进行实验测试,分类准确率达到87. 46%,和其他多口音分类方法相比该方法明显提高了分类速度以及分类准确率.