一种基于CNN/CTC的端到端普通话语音识别方法

潘粤成; 刘卓; 潘文豪; 蔡典仑; 韦政松

doi:10.19850/j.cnki.2096-4706.2020.05.019

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种基于CNN/CTC的端到端普通话语音识别方法

作者：潘粤成; 刘卓; 潘文豪; 蔡典仑; 韦政松

来源：现代信息科技, 2020, 4(05): 65-68.

DOI：10.19850/j.cnki.2096-4706.2020.05.019

摘要

为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端到端训练,将声波信号转换成普通话拼音序列。语言模型则采用最大熵马尔可夫模型,将拼音序列转换为中文文本。实验表明,此算法在测试集上已经获得了80.82%的正确率。

单位
华南理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 17:58

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号