摘要
针对流水线式三元组抽取模型中,命名实体识别任务里实体识别和实体分类两个子任务之间存在干扰,关系抽取任务中实体提及词对关系分类也存在干扰的问题,提出一种融合多任务学习和实体遮掩的关系三元组抽取模型。在命名实体识别任务中,先利用预训练模型对输入句子进行特征编码表示,然后利用首尾指针标注进行实体识别,最后利用注意力机制融入实体类型信息进行实体分类。在关系抽取任务中,提出了一种实体遮掩的方法,先利用实体类型信息替换实体提及词,并在其前后插入实体标记,之后利用预训练模型对输入句子进行特征编码表示,最后利用头尾实体的特征表示进行关系分类。在SCIERC和SKE两个数据集上进行大量实验,实验结果表明,所提模型相较于基于实体标记方法的PURE模型整体性能提升了2.5和 1.5个百分点。充分验证了在三元组抽取任务中,分解命名实体识别任务以及在关系抽取中用实体类型信息替换实体提及词的有效性。
- 单位