摘要

在特定领域中,由于领域知识结构较复杂等领域因素,存在着缺少适用于特定领域的关系抽取模型以及缺少标注数据等问题。因此,提出一种基于先验词汇的分段池化卷积神经网络模型K-PCNN,该模型利用关系类别的领域先验词汇作为辅助特征,从而提高关系抽取性能。针对缺少标注数据的问题,提出基于远程监督的领域数据标注方法,利用领域三元组知识和领域语料文本进行数据标注。在标注的数据上进行实验,实验结果显示,提出的模型F1值高于基线模型,表明领域先验词汇知识的应用提高了模型的抽取性能,并能够适用于特定领域关系抽取任务。