摘要

针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(Counterfactual, CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能。在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验。结果表明,本文所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题。