摘要

关于跨文档三元组(Subject Predicate Object, SPO)抽取任务,当前的研究主要基于句子级别的分析。然而很多场景下SPO元素可能分散于文档的各个位置,句子级别的抽取技术远远无法满足需求,因此提出一种Doc2SpSPO联合SPO抽取模型。该模型通过Span候选集模型生成初始实体信息,基于BERT-WWM预训练模型得到上下文以及候选实体相关Embedding信息进行分类任务从而实现SPO的联合提取。实验结果表明,该模型实体识别可达到F1值44.4%、关系分类准确率66.9%的较好效果。

  • 单位
    南威软件股份有限公司