混合CTC/Attention模型在普通话识别中的应用

许鸿奎; 张子枫; 卢江坤; 周俊杰; 胡文烨; 姜彤彤

摘要

基于链接时序分类（Connectionist Temporal Classification,CTC）的端到端语音识别模型具有结构简单且能自动对齐的优点，但识别准确率有待进一步提高。本文引入注意力机制（Attention）构成混合CTC/Attention端到端模型，采用多任务学习方式，充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明，当选取80维FBank特征和3维pitch特征作为声学特征，选择VGG-双向长短时记忆网络（VGG-Bidirectional long short-time memory,VGG-BiLSTM）作为编码器应用于中文普通话识别时，该模型与基于CTC的端到端模型相比，字错误率下降约6.1%，外接语言模型后，字错误率进一步下降0.3%；与传统基线模型相比，字错误率也有大幅度下降。

单位
山东建筑大学

收藏分享被引浏览

更新时间：2024-03-20 18:48

混合CTC/Attention模型在普通话识别中的应用

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友