基于多核卷积融合网络的BLSTM-CTC语音识别

刘晓峰; 宋文爱; 陈小东; 郇晋侠; 李志媛

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于多核卷积融合网络的BLSTM-CTC语音识别

作者：刘晓峰; 宋文爱; 陈小东; 郇晋侠; 李志媛

来源：计算机应用与软件, 2021, 38(11): 167-173.

摘要

语音信号在传播过程中会产生持续时长不等的音素特征,这些特征会影响语音识别的正确率。针对这一问题,提出一种多核卷积融合网络(Multi-core Convolution Fusion Network, MCFN),用于对不同长度的音素特征进行标准化,用标准化后的特征训练语音识别模型。此外,还利用子空间高斯混合模型(Subspace Gaussian Mixture Model, SGMM)将一般说话者的语音和信息加入到模型中,减小语料稀疏性对模型的影响。通过在Thchs30和ST-CMDS数据集对模型进行评估,结果显示,基于MCFN的BLSTM-CTC语音识别模型的识别字错误率(WER)较传统的语音识别模型有所降低。

单位
中北大学

收藏分享被引(14) 浏览

更新时间：2024-04-18 01:10

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号