摘要
知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元来源复杂、数量巨大、包括的领域和范围十分广泛等文本本身的噪声都会导致信息抽取的准确性受到一定程度的影响。因此,如何让知识图谱的更加完整且准确始终是一项挑战。然而现存的知识图谱补全方法通常只考虑单一的结构信息或者是单一的文本语义信息,而忽略了在整个知识图谱中同时存在的丰富的结构信息与丰富文本语义信息。针对此问题,提出了一种将语言模型增强知识图谱嵌入并融合对比学习的知识图谱补全方法。该方法首先将输入的实体和关系利用预训练语言模型来获取实体和关系的文本语意信息,然后利用翻译模型的距离打分函数来捕获知识图谱中的结构化信息,最后利用提出的两种新的用于对比学习的负采样方法来融合对比学习来训练模型以提高模型对正负样本的表征能力。通过大量的实验,充分证明了新方法的有效性,新方法在链接预测任务上,相较于单一使用文本语义信息的KG-BERT,在WN18RR和FB15K-237数据集的MRR指标上效果分别提升了29%和23%,其性能明显优于其他基线模型。
-
单位云南电网有限责任公司; 云南电网有限责任公司电力科学研究院; 云南大学