摘要

中文医疗实体识别是医疗领域文本信息处理的基础,但中文医疗文本中常常存在语法不规范、实体嵌套和类型易混淆等问题易造成实体识别精度下降,因此确保中文医疗实体识别的准确度具有较大的理论研究和实际应用价值。为此,提出一种融合BERT预训练、双向长短期记忆网络(BILSTM)和结合注意力机制的空洞卷积网络(IDCNN)的实体识别模型来提升中文医疗实体识别的精度。起先,使用BERT预训练语言模型使中文字符转换为词向量并增强其语法语义特征;而后将训练好的词向量分别通过BILSTM网络和加入注意力机制的IDCNN网络获取上下文信息和更大的感受野;最终将蕴含语法语义特征、上下文信息和更大的感受野信息的特征融合并输入到条件随机场(CRF)中进行实体预测。在两个公开的医疗数据集CMeEE/Yidu-S4K上的实验表明,该模型的F1值分别达到了0.711 6和0.820 6,较主流模型分别提高了1.40百分点和2.29百分点,验证了此模型在中文医疗实体识别上的有效性。

  • 单位
    武汉科技大学; 智能信息处理与实时工业系统湖北省重点实验室

全文