摘要

现实中获得的数据集往往存在缺失值,为了研究不同缺失值插补方法在不同缺失比例下的插补效果,文中选择数值型和混合型的完整数据集,设置不同的缺失比例,分别使用均值插补、K近邻插补、多变量特征插补、随机森林插补四种方法对其进行插补,并使用决策树分类器拟合填补后的数据集,通过计算分类精度比较四种方法的填补效果。实验结果表明,在缺失比例不大于50%时,多变量特征插补和随机森林插补方法在数值型和混合型数据集上的插补效果优于其他两种方法。

全文