摘要
针对传统字向量难以表达上下文语义以及抽取的特征较为单一等问题,提出基于BERT的多特征融合模型BERT-BiLSTM-IDCNN-Attention-CRF,通过BERT建模字向量的上下文语义关系,并融合双向长短期记忆网络(BiLSTM)和迭代膨胀卷积(IDCNN),分别抽取的上下文特征和局部特征,使两种特征进行互补以提升实体抽取效果。本模型在全国知识图谱与语义计算大会CCKS2020中文电子病历数据集上进行测试,与BiLSTM-CRF等基准模型进行比较,F1值提升1.27%。实验结果表明,本模型能较好地识别电子病历中的医疗实体。
- 单位