摘要
随机下采样方法在不平衡数据集处理上容易造成重要信息损失,影响了分类器的性能。为了尽可能的避免数据信息损失,本文提出了一种基于K均值聚类的下采样方法。该方法通过K均值聚类将原始多数类样本聚为与少数类样本数目相当的簇,然后对每一个簇求样本中心,利用样本中心作为新的多数类的样本。本文所提方法得到的多数类样本与少数类样本个数相当,降低了不平衡度,而且每一个新多数类样本都是每一个簇的中心,保留了原始样本的分布信息。在客户流失数据集上的分类实验表明,本文方法较随机下采样方法更为有效。
-
单位黄河科技学院