基于语境相似度的中文分词一致性检验研究

作者:刘伟; 黄锴宇; 余浩; 黄德根*
来源:北京大学学报(自然科学版), 2022, 58(01): 99-105.
DOI:10.13209/j.0479-8023.2021.099

摘要

提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验,结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地,使用3种主流中文分词模型在修正一致性后的分词语料中重新训练和测试,结果表明该方法可以有效地提高分词语料库的质量,3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。

全文