摘要

目的探讨完全随机缺失机制下,成组删除法、均值填补法、回归填补法和多重填补法处理缺失数据的效果及趋势。方法运用R语言,采用Monte Carlo技术模拟完整数据集、不同缺失比例和相关系数条件下的数据集,比较各种方法处理缺失值的效果。结果当缺失比例为10%时,4种方法处理效果一致。随着缺失比例增加,4种方法处理后均值变化不大;均值填补法处理后相关系数小于其他方法,多重填补法和标准一致,回归填补法填补后相关系数比其他方法偏高而且呈增加趋势。随着回归系数的增加,回归填补法的相关系数准确性增加。结论 4种方法处理完全随机缺失机制下两个相关变量的效果不同,当缺失比例较低时,建议采用成组删除法或回归填补法。当缺失比例较大时,建议使用多重填补法。