摘要

针对现有越南语语音识别模型大量使用循环神经网络,无法并行训练,模型收敛速度慢的问题,构建基于transformer的端到端语音识别模型,加快模型训练的同时,减少对语言学知识的依赖。通过分析越南语发音规律,系统以音素作为识别单元,对识别结果利用基于音节的语言模型进行重打分。实验结果表明,基于transformer的越南语语音识别系统与其他方法相比,能够同时提升识别率和收敛速度。

  • 单位
    信息工程大学