摘要

按照不同不平衡数据集在面对四类分类情况时侧重点的不同,构造出一种适用于不同特征不平衡数据的分类评价指标,并围绕此指标调整弱分类器权重及样本权重,改进集成算法中的AdaBoost算法,使其自适应不同特征的不平衡数据集分类。选择决策树算法作为基分类器算法进行仿真实验,发现使用AdaBoost算法和GBDT算法后准确率降幅较大,而改进的PFBoost算法能够在保证准确率的情况下显著提升F1值和G-mean值,且在绝大多数数据集上的F1值和G-mean值提升幅度远超其它两种集成算法。