摘要

当前,循环神经网络(Recurrent Neural Networks,RNN)被广泛应用于语音识别系统。使用循环神经网络与连接时序分类(CTC)进行端到端语音识别建模,基于TED-LIUM v2语料库训练不同结构的网络模型,即单/双向RNN和单/双向LSTM,比较和分析不同结构网络模型的语音识别性能。实验结果显示,BLSTM在音素识别性能和学习速度上都取得了最好表现。为解决BLSTM网络的过拟合问题,实验将状态dropout应用于LSTM单元,既能保障BLSTM网络的长时记忆能力,也能减小在训练集与测试集上PER的差异,从而有效改善BLSTM的过拟合问题。