摘要
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合。在中文数据集AISHELL-1上的实验结果表明,与传统识别模型相比,该改进端到端模型更适用于带噪语音的识别任务。
-
单位中国航天科工集团公司