摘要

伴随信息时代的快速发展,网络中的数据资源呈现井喷式增长趋势。如何从无序繁多的信息中挖掘深层次的结构化信息,构建一定规模的可用知识库,对于自然语言处理相关任务的研究具有重要意义。上下位关系作为知识库的基本框架,受到国内外专家学者的一致青睐。而目前已经存在的语料库大多局限在通用领域,对跨句子的上下位关系的关注相对较少,而对跨篇章的上下位关系目前还未见到相关标注。该文提出了一种基于同义推理的篇章级实体上下位关系标注策略,并以国防科技领域的文本作为具体实施对象,最终构建了一个中等规模的篇章级上下位关系语料库,该语料库涵盖国防军事领域的新闻文本和科技文献两种题材,共计962篇文本,共标注了11 020个语义关系。实体上下位关系的标注一致性达到0.82,为国防科技领域的上下位关系识别研究奠定了语料基础。