白血病数据预处理过程中的关键问题及探讨

作者:刘存德*; 蒙华; 刘德健
来源:电脑编程技巧与维护, 2018, (10): 117-119.
DOI:10.16184/j.cnki.comprg.2018.10.042

摘要

为研究得出吸烟是否成人白血病发病危险因素的明确结论,在某大型三甲医院的电子病历系统中,收集成人白血病病人的病历资料,从海量数据中严格筛选符合科研要求的数据以解决样本小的问题,并对相关数据进行预处理以进行数据挖掘。着重介绍了在数据预处理过程中存在的病人隐私保护、病例重复、数据不规范等关键问题,并对其解决思路进行了探讨。

全文