基于多任务学习的端到端维吾尔语语音识别

作者:苏比·艾依提; 努尔麦麦提·尤鲁瓦斯*; 黄浩; 吾守尔·斯拉木
来源:信号处理, 2021, 37(10): 1852-1859.
DOI:10.16798/j.issn.1003-0530.2021.10.008

摘要

维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低。针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码。实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能。在公开的维吾尔语语音数据集THUYG-20上与基线相比把子词错误率和字错误率分别降低7.3%和3.8%。