摘要

为了研究数据缺失填补算法的准确性和稳定性,文章基于完全随机缺失对完整数据集按不同缺失率进行挖空处理,然后使用6种算法对缺失数据进行填补,并重复执行多次,对比分析其准确性和稳定性,给出相应的置信区间。结果表明,混合迭代填补法准确性优于K近邻、缺失森林、加权K近邻等算法,其稳定性仅次于缺失森林;随着缺失率的增大,该算法准确性高的优势更加显著;当缺失率小于5%时,该算法的准确性和稳定性达到最佳。

  • 单位
    贵州民族大学