摘要
针对SMOTE(synthetic minority over-sampling technique)等基于近邻值的传统过采样算法在处理类不平衡数据时近邻参数不能根据少数类样本的分布及时调整的问题,提出邻域自适应SMOTE算法AdaNSMOTE。为使合成数据保留少数类的原始分布,跟踪精度下降点确定每个少数类数据的近邻值,并根据噪声、小析取项或复杂的形状及时调整近邻值的大小;合成数据保留了少数类的原始分布,算法分类性能更佳。在KEEL数据集上进行实验对比验证,结果表明AdaNSMOTE分类性能优于其他基于近邻值的过采样方法,且在有噪声的数据集中更有效。
- 单位