摘要
近年来,基于大规模自监督预训练和微调技术的端到端连续语音识别取得显著进展,然而现有方法在模型微调阶段和测试阶段存在目标不一致性,制约其性能的进一步提升。针对此问题,提出采用强化学习技术对自监督预训练模型进行微调的方法。该方法将语音识别问题转化为序列决策问题,将预训练模型得到的语音高层表示作为环境状态编码,将词错误率作为奖励函数,将语音识别模型视为策略函数,采用策略梯度算法直接对词错误率进行优化。针对LibriSpeech语料库上的实验结果表明,基于Wav2vec2.0或Hubert预训练模型,采用强化学习微调得到的语音识别模型比采用CTC准则微调后系统的词错误率分别相对降低了6.3%和4.9%。
-
单位信息工程大学