摘要

为了增加对不同类别样例的区分度,提高模型的分类效果,提出了结合类别关键词和注意力机制的药物相互关系(DDI)抽取模型KA-BERT。首先基于卡方检验和文档频率获取每个类别的关键词,然后在预训练BERT模型中加入关键词与药物对的位置编码,以增加样例的差异性,并通过注意力机制学习关键词与句子中其他词的分布信息。针对药物关系抽取任务中负样例较多的问题,文中提出了基于规则和模式的负样例过滤方法,以有效降低正负样本比例。与现有基于CNN、基于LSTM和基于BERT的DDI提取模型实验结果的对比表明,KA-BERT模型能够很好地提高药物关系的提取效果,证明了该模型的有效性。在化学-蛋白质相互关系抽取上的测试结果表明,KA-BERT模型的准确率、召回率和F1值均有明显的提升,证明了该模型的有效性和通用性。