为研究得出吸烟是否成人白血病发病危险因素的明确结论,在某大型三甲医院的电子病历系统中,收集成人白血病病人的病历资料,从海量数据中严格筛选符合科研要求的数据以解决样本小的问题,并对相关数据进行预处理以进行数据挖掘。着重介绍了在数据预处理过程中存在的病人隐私保护、病例重复、数据不规范等关键问题,并对其解决思路进行了探讨。