摘要

目的 通过研究临床输血预测模型构建中的缺失值及数据降维处理方法,提升临床输血数据质量,进而提升临床输血预测模型的准确性。方法 根据医疗数据多源异构的特点,通过抽取-转换-加载进行数据预处理并进行数据可视化分析;采用随机森林、平均值、中位数、K-最近邻4种方法进行缺失值插补;采用主成分分析进行冗余数据降维后获得最终的临床输血数据。利用逻辑回归算法进行临床输血预测模型构建并比较预测性能,以验证缺失值及数据降维处理方法的应用价值。结果 提出了临床输血预测模型构建过程中缺失值及数据降维处理的方法。对不同缺失值插补算法结果的比较显示,随机森林插补后模型的准确率、召回率及F1值分别为0.904、0.607、0.685,均优于其他插补算法。主成分分析降维后,模型的准确率、召回率及F1值进一步提高,有效提升了数据的标准化、规范性。结论 本研究提出的临床输血数据缺失值插补及数据降维方法具有良好的应用价值,可为后续临床输血预测模型的建立提供数据支撑。