摘要
针对欠采样可能丢弃过多的有用信息,合成少数类的过抽样技术(Synthetic Minority Over-sampling Technique, SMOTE)可能会引入过多的噪声的问题,提出了SMOTE改进算法。该算法首先使用聚类算法将少数类分为若干个簇,随机选择簇中的若干样本合成中间样本点,再与簇芯合成新的样本点,然后将随机欠采样(Random Under-Sampling, RUS)和SMOTE改进算法结合,提出了RUCSMOTE算法。该算法首先根据当前样本不平衡比率,使用随机欠采样,再使用SMOTE改进算法对少数类进行过采样,最终得到平衡的数据集。通过理论分析可知,RUCSMOTE算法结合两种算法的优点,减少过拟合的风险,同时减少因为欠采样丢失的多数类信息。在20个KEEL不平衡数据集上的实验结果表明,对于不均衡分类,相对于另外7种重采样算法,评价指标AUC与GM普遍提高了2到7个百分点。
- 单位