摘要
CGAN能学习到数据的分布特性并生成符合原始数据分布的新样本,将其作为过采样方法可以提升不平衡数据的分类性能.然而,当少数类样本规模较小时CGAN不能充分学习其分布特征,导致生成的样本质量欠佳.为此,本文提出一种基于改进CGAN的不平衡数据集成分类算法.首先采用SMOTEENN方法快速生成少数类样本并使其达到一定规模,训练出能充分学习少数类样本分布特性的CGAN模型,然后重新生成符合原始数据分布的少数类样本以构建平衡数据集.最后以CART决策树为基分类器,通过对Adaboost方法进行改进并用其训练所构建的平衡数据集,得到最终分类模型.选择F1值、AUC和G-mean作为分类评价指标,在8组公开数据集上的实验结果表明,所提方法可以显著提高不平衡数据的分类精度.
-
单位昆明理工大学; 机电工程学院