摘要

利用非合作博弈理论为概率过抽样合成的少数类数据决定其最可能的类标签,将数据中的非本类合成数据进行过滤,减少概率过抽样合成数据过程中产生的重叠数据,得到更高质量的少数类数据进而改善数据倾斜状况。实验分别以CART和SVM分类器建立模型,将本文提出的面向非平衡数据分类的概率过抽样过滤方法RACOG+F与原始概率过抽样方法分别在8个KEEL非平衡数据集上进行对比。实验表明,本文提出的方法在评价指标F-measure、G-mean和AUC上获得了较好的分类性能。