摘要
义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库,并借此将义原应用到了多种自然语言处理任务。但传统的人工标注费时费力,而且不同的专家进行标注难免会引入标注者的主观偏差,导致标注的一致性和准确性难以保证。因此,保证词的义原标注一致性已成为建设高质量语言知识库HowNet、提升义原应用任务效果的首要任务。该文首次提出了一种对HowNet已标注的义原进行一致性检验的方法。实验结果表明,所提方法切实有效,能够很好地应用于HowNet知识库的标注一致性检验以及完善扩充。
-
单位清华大学; 智能技术与系统国家重点实验室