基于外部知识的中文文本检错

作者:段建勇; 李杰东; 王昊
来源:数字技术与应用, 2022, 40(06): 1-65.
DOI:10.19695/j.cnki.cn12-1369.2022.06.01

摘要

<正>中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少对外部知识的引用。本文针对现有检错方法的不足,结合中文文本语句的特点,将输入的中文字符结合其拆字知识,同时将中文的分词结果结合其更小粒度的义原外部知识,将拆字知识和义原知识表示融合为外部知识矩阵,并改进模型结构,利用外部知识来引导模型检错的过程,在Tencent AI Lab以及SIGHAN数据集上的实验表明,外部知识能有效的提高模型的检错能力。

全文