摘要
目的:对于数据缺失的处理方法是基于数据集研究的重要组成部分,缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果的偏倚。因此,需要提供有效的方法降低缺失数据对整体的影响。方法:基于医学临床数据集,针对不同数据类型,比较了KNN插补、随机森林插补、决策树插补、多重插补4种不同的插补方法在不同的缺失率下的插补效果,并采用均方根误差和错误率评价插补效果。结果:KNN插补和决策树插补对缺失率有较高要求,当缺失率≥50%时这两种方法不适用;多重插补和随机森林插补对不同的缺失率情况下的插补效果变化不明显。结论:各插补方法对不同缺失率和不同的数据类型的插补效果不同。在以上四种方法中,随机森林插补在本研究中表现出较好的插补效果。
-
单位新疆医科大学; 中山大学中山医学院