摘要

针对卷积神经网络(CNN)在语音识别中处理时序能力不足和循环神经网络(RNN)在语音识别中模型复杂度较高、训练慢的问题,提出一种新的基于准循环神经网络和连接时序主义(QRNN-CTC)的声学模型。该模型既降低了参数量,又保证了一定的时序间循环能力,利用CTC来实现输入序列和标签自动对齐,在训练时引入dropout防止过拟合。在Thchs-30数据集上的实验结果表明,QRNN-CTC比CNN-CTC相对错误率降低9.8%,最终词错误率为23.8%,训练时间为LSTM-CTC的一半。