连接时序分类准则声学建模方法优化

作者:王智超*; 张鹏远; 潘接林; 颜永红
来源:声学学报(中文版), 2018, 43(06): 984-990.
DOI:10.15949/j.cnki.0371-0025.2018.06.014

摘要

对基于连接时序分类准则(connectionist temporal classification, CTC)的端到端声学建模方法进行研究和优化。研究分析了不同声学特征、建模单元以及神经网络结构对CTC声学模型性能的影响,针对CTC模型中blank符号共享导致的建模缺陷提出了建模单元相关的非共享blank方法进行改进,并引入融合建模单元关联信息的模型初始化方法进一步提高CTC模型的性能.在300小时标准英文数据集Switchboard的实验结果显示,结合非共享blank、时延神经网络以及融合建模单元关联信息的初始化方法,CTC声学模型相对于基线系统在词错误率上取得绝对1.1%的下降,同时在训练速度上取得3.3倍的提高,实验结果证明本文针对端到端声学建模提出的优化方法是有效的。

全文