摘要
丢失值填补在数据挖掘领域是非常重要的。针对数据集中出现属性丢失值的情况,本论述提出了一种属性丢失值分块填补(ABNS)的方法。首先对数据集进行标准化处理,然后将其数据分成相等的n个块,接着验证每一块来获取相对应的最优的K值,最后使用最优的K值进行数据填补来得到相应的数据。实验采用公开数据集Horse Colic、Vote和Diabetes进行实验,并且在使用贝叶斯、KNN和SMO算法进行分类评估的情况下,对所提出的方法与传统均值填补方法和概率填补方法进行对比。实验结果分析表明,所提方法的填补效果较对比的方法具有一定优势。
- 单位