语音转录后文本的中文拼写纠错模型

邢月晗; 郑岩<sup>*</sup>

doi:10.19651/j.cnki.emt.2210763

摘要

针对目前语音转录文本错误率较高的问题，本文提出一种基于MacBERT的文本先检错后纠错模型，对语音转录后文本进行校正。检错阶段使用MacBERT-BiLSTM-CRF模型检查文本是否有错及出错位置。纠错阶段从置信度和字音相似度两个维度出发，划定“置信度-字音相似度”曲线判断候选字是否进行纠错。候选字的置信度使用MacBERT语言模型计算，并提出一种基于拼音码的字音相似度计算方法。在语音公开数据集Thchs-30上通过调用百度语音识别API进行实验，相比现有方法，在检错阶段和纠错阶段的精确率、召回率、F1值都得到了提高，其中纠错阶段精确率达到83.32%,提高了转录文本的正确性。

单位
北京邮电大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:00

语音转录后文本的中文拼写纠错模型

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友