基于DFCNN-CTC和Transformer的中文语音识别

杨璐; 郭文明; 韩芳

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于DFCNN-CTC和Transformer的中文语音识别

作者：杨璐; 郭文明; 韩芳

来源：火力与指挥控制, 2022, 47(03): 16-21.

摘要

语音识别一般只是将语音转化成文字，识别的结果是没有标点的一连串汉字，这不利于读者阅读，也会影响后续任务的处理。因此，引入语音端点检测解决上述问题。同时针对传统的语言模型N-gram存在忽略字词之间语义的相似性、训练时的参数过大等问题，提出一种以全序列卷积神经网络DFCNN作为声学模型，Transformer作为语言模型的语音识别系统。在Thchs30、ST-CMDS数据集上的实验表明，相较于DFCNN结合3-gram模型，该系统在最优模型上达到了12.8%的字符错误率，相对下降了6.9%。

单位
北京邮电大学; 新疆工程学院

收藏分享被引浏览

更新时间：2024-03-19 12:10

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号