摘要
作为知识图谱构建过程中的关键步骤,关系抽取这一从海量自然语言文本中抽取实体间关系的任务近年来得到了越来越广泛的关注。如今,远程监督(distant supervision)方法通过与已有知识库(knowledge base)中的实体和关系进行对齐,可以直接使用源文本进行训练从而省去了人工标记数据的过程。其中,使用了多实例多标签(multi-instance multi-label)模型的MultiR算法取得了很好的抽取效果。但该算法存在两个问题:抽取过程中未考虑实体对之间可能已存在的关系,以及概率图匹配计算中使用的贪心算法无法获得最优解。该文针对上述问题进行了改进。首先,在关系抽取的打分过程中,考虑到同一实体对可能存在的多个关系之间具有一定关联性,该文引入了关系权重矩阵,使其在抽取过程中将实体对已知的关系转换为权重向量对打分进行干预,以此减少个别文本特征的干扰,提高抽取准确率。其次,在概率图匹配过程中,为了将图的匹配从局部最优值提升为全局最优值,该文将原有的贪心算法替换为基于状态压缩的动态规划算法。实验结果证明,优化后的MultiR模型,称之为OptMultiR,其关系抽取性能得到了显著提升。
- 单位