摘要

[目的/意义]科技文献知识图谱对文献语义检索、学术精准推荐、学科智能问答等创新型知识服务具有重要的支撑作用。然而图谱中大量实体缺失链接关系,阻碍了知识服务的升级与改革。翻译模型是知识图谱关系预测的主流方法,但是典型的翻译模型在动态表示、属性区分和文本特征融合等方面能力不足,难以直接应用于科技文献知识图谱关系预测任务中。[方法/过程]文章提出一种改进的翻译模型CoTransH,实现科技文献知识图谱的语义关系预测。数据准备层:先综合语步识别、实体抽取、语义相似性度量等技术自动构建关系预测的标注语料库,再融合文本特征和外部先验知识动态生成向量,增强模型在开放世界中的语义表示学习能力;模型结构层:先引入超平面机制解决多对多关系预测,后加入非线性卷积层区分头尾实体属性,再改进得分函数提高关系的关注度,最后根据语料特征改进负例生成策略,提升模型对关系预测精度。[结果/结论]使用CoTransH模型构建了以人工智能领域科技文献摘要蕴含的"问题"短语和"方法"短语为节点,"采用"和"解决"关系为边的人工智能领域知识图谱。CoTransH的关系预测F1值,在封闭世界下比典型的翻译模型(TransE,TransH,TransD,KG2E)平均提升12.1%,在开放世界下平均高于TransH模型38.46%。CoTransH可融合实体语义特征和几何特征,实现高效的科技文献知识图谱关系补全。[局限]提出的CoTransH模型尚缺多义关系预测的能力。

全文