摘要
实体关系联合抽取作为各领域构建知识图谱不可或缺的任务,成为当今信息抽取任务中的热点。现有的生成式实体关系联合抽取方法,多采用编码器-解码器框架,通过监督学习从非结构化文本中抽取特征来生成实体和关系序列。但这种方法属于数据驱动方法,在缺乏标注数据时存在质量较低的问题,而获取标注数据需要花费大量的成本。基于远程监督的方法通过利用外部知识库对文本进行自动标注,能够解决缺少大规模标注数据的问题,但同时引入的错误标签也会影响模型的性能。针对上述问题,提出了融合外部知识的生成式实体关系联合抽取方法,采用多编码器和知识注意力机制,将结构化信息和句法结构等外部知识融入模型。具体来说,首先利用标注数据对模型进行预训练来学习实体关系表示,然后利用外部知识再次训练来学习句法结构等信息。实验结果表明,所提方法能够通过融合外部知识,提升实体关系三元组的准确率,尤其提升模型在标注数据稀缺场景下的抽取准确率。
-
单位中国科学院大学; 模式识别国家重点实验室; 中国科协创新战略研究院; 中国科学院自动化研究所