摘要

针对不平衡数据集中存在的噪声以及类内类间不平衡问题,提出了基于密度峰值聚类的过采样算法。首先对多数类样本进行预处理,筛选噪声样本并删除;其次,算法对所有少数类样本采用密度峰值聚类,剔除噪声点;接着根据聚类后每个簇不同的稀疏度分配采样权重,计算每个簇需要合成的新样本数目;最后在每个簇内进行SMOTE过采样合成新样本。将提出的过采样算法与五种常用过采样算法对比,并分别和五种基分类器相结合,在6个不平衡数据集上进行对比实验。实验结果表明:该方法的F1、G-mean、AUC最低可提升1.21%、0.94%、5.14%;最高可提升15.90%、14.99%、11.26%。证明了该方法能够减少样本重叠,有效避免不平衡数据集中噪声的产生,提升分类精度。