摘要

针对梅尔频率倒谱系数(MFCC)语音特征不能有效反映连续帧之间有效信息的问题,基于深度神经网络相关性和紧凑性特征,提出一种融合神经网瓶颈特征与MFCC特征的复合特征构造方法,提高语音的表征能力和建模能力。从语音数据中提取MFCC特征作为输入数据,将MFCC特征和BN特征进行串接得到新的复合特征,并进行GMM-HMM声学建模。在TIMIT数据库上的实验结果表明,与单一的瓶颈特征和深度神经网络后验特征相比,该方法识别率明显提升。