摘要
目的探索中医领域利用少量标注语料进行电子病历中医学实体信息的命名实体识别(NER)研究工作,为更复杂的中医电子病历信息处理及深度学习方法在中医领域内的运用提供参考。方法分析中医电子病历词汇术语与一般的NER任务相比较的特殊性,对比了目前3种NER技术的优缺点,找寻适合中医电子病历医学术语的NER技术。结果长短时记忆神经网络(LSTM)是一种无监督学习模型,能有效利用序列数据中长距离依赖信息,特别适合处理文本序列数据;还可以和条件随机场(CRF)模型相结合,解决中医NER的难点。长短时记忆神经网络联合条件随机场模型(LSTM-CRF)可以在未标记的病历文本语料上无监督学习词语特征,不依赖于人工设计特征模板而达到自动提取患者症状、疾病、诱因等命名实体的目的。结论中医电子病历术语识别应利用多种命名实体识别技术,充分发挥这些技术的优势,提高模型识别准确性。
-
单位首都医科大学; 中国中医科学院中医临床基础医学研究所; 医药学院