摘要

目的构建住院电子病历的自然语言处理模型,基于该模型对江苏省人民医院住院患者的病历进行结构化数据提取。方法从江苏省人民医院住院电子病历中随机抽取330份入院记录作为命名实体标注语料库并设计实体标注体系,构建基于条件随机场(CRF)的命名实体模型。结果此模型对于入院记录中的医院名称实体的抽取平均准确率为0.946、平均召回率为0.896、平均F-score为0.917,利用该模型对江苏省人民医院的26219份患者的入院记录进行结构化数据提取,提取出11254条患者既往就诊医院名称实体。结论通过分析患者到江苏省人民医院住院之前对就诊医院的行政级别与所在地域选择的行为,能够对政府的医疗资源布局规划提供数据支持。

  • 单位
    南京医科大学第一附属医院