摘要

关系抽取是自然语言处理领域的一项基础研究,抽取的结果可以用于知识图谱构建、人机问答、语义搜索等下游任务,具有广泛的应用场景和重要的研究价值。近年来,关系抽取研究取得了丰富的成果,但绝大多数研究局限于句子级关系抽取。研究表明,大量的关系无法通过单个句子提取,随着深度学习和自然语言处理技术的不断发展,文档级关系抽取研究工作迎来了新一轮的机遇和挑战。文中着重对近几年文档级关系抽取的研究进展进行分类和梳理,提炼出文档级关系抽取的一般技术路线图,分析文档级关系抽取研究的特征编码及特征聚合方法,并根据提取特征的不同,将文档级关系抽取方法概括为基于词汇特征、基于句法特征以及基于关系特征的3类方法;同时介绍常用文档级关系抽取数据集和评测指标,并对未来的研究趋势进行展望。