摘要
[目的] 命名实体识别(Named Entity Recognition,NER)是药品不良反应监测和信息抽取的关键环节,为解决在线健康社区中实体表述不规范和边界不显著问题,提出了一种基于对抗性迁移学习的药品不良反应实体识别模型ATL-BCA。 [方法] 首先,通过Word2vec生成融合在线医疗健康领域外部语义特征向量;其次基于迁移学习思想采用共享和私有BiLSTM分别抽取实体识别和分词任务的共享边界信息及私有信息;接着利用多头注意力机制捕捉句子整体依赖性,并使用对抗训练过滤分词任务的私有信息以消除冗余特征对实体识别任务的影响;最后,借助CRF约束预测标签序列结果。 [结果] 在自构建药品不良反应数据集上进行实验,发现引入对抗性迁移学习的ATL-BCA模型实体识别F1值达到了91.35%,较主流模型Word2vec-BiLSTM-CRF和BERT-BiLSTM-CRF分别提升了5.28%和2.98%。 [局限] 仅选用“三九健康药物网”作为实验数据源,且数据集规模较小。 [结论] ATL-BCA模型不仅可以充分利用实体识别和分词任务共享边界信息,而且能够过滤分词任务私有特征,从而有效提升在线健康社区中药品不良反应实体识别效果。
- 单位