摘要

分类算法在不平衡数据分类中,对少数类样本识别率较低的问题,提出一种基于代价敏感集成决策树的分类方法(CSB-C5.0)。利用网格搜索法对集成迭代参数进行优化;通过构建集成决策树将多个决策树组合生成更准确的分类器,同时引入代价敏感因子,通过为不同种类的分类结果赋予不同的权重来提升少数类的分类识别率。以UCI数据中的数据集为研究对象,进行分类。仿真结果表明,与典型的不平衡数据分类算法SMOTEBoost、RUSBoost和标准的C5.0算法相比,CSB-C5.0方法有效地提高了少数类样本的性能。

全文