摘要

机器学习在异常检测、疾病诊断等许多不同领域的应用中,普遍存在类别分布不平衡的数据现象。数据重采样是解决不平衡数据分类问题最通用的方法,近年来学术界提出了合成数据采样、聚类采样以及集成采样等一系列算法。各算法所采样生成的数据集各具特性,对不同类型分类器的作用各不相同。因此,提出一种系统比较方法,基于多个不同领域的真实数据集,采用9种不同类型的数据重采样算法实现训练集类别均衡化,比较各算法对C4.5决策树、支持向量机和最近邻3种经典分类器的精确率、召回率和F值的影响。实验结果表明,不同重采样算法生成的数据集是分类器敏感的,并给出了适用于3种分类器的重采样算法。

  • 单位
    中国能源建设集团广东省电力设计研究院; 广州供电局