摘要

数据缺失是较为常见的影响数据质量的因素,会降低分析结果的可靠性。采用不同方法填补缺失数据,再用D-vine copula分类器对填补后的数据做分类,通过预测准确率来分析不同缺失数据处理方法对D-vine copula分类器的影响。首先,介绍了5种常用的缺失数据处理方法和D-vine copula分类器的相关知识;其次,结合实际数据,模拟不同的缺失比例,用这5种方法对数据进行填补;最后,用D-vine copula分类器对填补后的数据做分类,对分类准确率进行比较分析。研究发现,填补后的数据在D-vine copula分类器上表现得较为稳定,当数据缺失比例在5%~10%时,用随机插补法处理缺失数据效果较好,当数据缺失比例较大时,可以优先考虑用K最近邻插补法处理缺失数据。