摘要

医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑。提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型。首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调;其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征;最后,基于条件随机场模型(CRF)命名实体的序列标记。在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销。