一种基于CNN/CTC的端到端普通话语音识别方法

作者:潘粤成; 刘卓; 潘文豪; 蔡典仑; 韦政松
来源:现代信息科技, 2020, 4(05): 65-68.
DOI:10.19850/j.cnki.2096-4706.2020.05.019

摘要

为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端到端训练,将声波信号转换成普通话拼音序列。语言模型则采用最大熵马尔可夫模型,将拼音序列转换为中文文本。实验表明,此算法在测试集上已经获得了80.82%的正确率。

全文