基于Hadoop医学数据平台的数据清洗

作者:李杨; 刘洋*; 贺瑞心; 张贵轩
来源:电脑编程技巧与维护, 2020, (01): 121-176.
DOI:10.16184/j.cnki.comprg.2020.01.045

摘要

随着医院信息化的不断深入和普及,病人的电子病历、药物信息、诊治记录和病人的个人信息等,存在着重复、不完整或错误的数据,无法在数据库中清晰明了地获取每个病人的信息,因此医学数据清洗应运而生。实现一个基于Kettle工具和Python语言的数据清洗平台。平台使用Kettle工具和Python语言对简单的医学重复数据、医学错误数据及医学不完整数据按照设计的清洗流程以及清洗规则进行清洗,之后通过Kettle转换存储到Hadoop平台的Hive数据仓库中,从而得到有价值的医疗数据并应用到医疗大数据分析和挖掘中。

  • 单位
    河北北方学院