摘要

针对离散型数据填补方法的研究尚不完备的情况,通过改造现有模型,系统地比较和分析了基于众数填补、随机填补、K最近邻填补、基于自编码器的填补和基于生成对抗网络的填补在离散型数据的填补性能,对在数据预处理阶段选择适合数据集的填补方案具有重要的意义。实验结果显示,不同填补方法的填补结果有较大的差异,进而影响后续分析的准确性。