摘要
实体及关系抽取是信息抽取中的两个核心任务,是构建知识图谱的重要基石。对于实体识别和关系抽取,当前通常采取人工提取特征和规则,分独立两步实现的方法,这种方法易造成数据重复预处理和错误传播。实体识别和关系抽取两个模块存在相互关联性,实体识别是进行关系抽取的基础,实体关系抽取结果又可反馈校验实体信息。因此,文中提出无须添加人工特征和引入互反馈机制的混合神经网络模型(Mufeedback-Join Model)来完成实体及其关系的联合抽取,实现实体关系对实体识别的反馈校验机制。该模型共享Bi-LSTM特征提取层来提取文本上下文特征,依据共享层特征引入Attention机制捕获关键局部特征来完成解码,再用条件随机场CRF完成实体序列的标注任务,融合共享层特征和实体特征,并将其输入到CNN模型来实现实体关系的抽取,最后计算关系抽取结果的损失值,再联合实体识别损失值反馈修正特征提取层和实体识别模型参数。将此算法应用在实体数据集上进行实验,在同等硬件环境下,该方法可以缩短的模型训练时间,提升实体及关系抽取的准确率、召回率和F1值,联合抽取的F1值整体提升了3.91%,实体识别子模块的F1值平均提升了1.34%,关系抽取的F1值提升了5.79%。实验数据说明,联合抽取模型可以实现两个子模块的合并,从而缩短数据处理时间和减少错误数据的传递;相互反馈的机制可以提升整体识别效果。
- 单位