摘要

领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1 115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。

全文