不平衡数据集会严重影响机器学习中的分类器性能。论文提出了一种基于高斯混合模型的下采样方法。利用高斯混合模型对负类数据进行拟合,根据每个高斯分量上数据的分布情况,即概率区间按比例进行下采样。此方法通过减少多数类样本数目达到了平衡类分布的目的,并且尽可能保持了多数类的数据分布。在6组UCI不平衡数据集上的实验结果表明,论文提出的下采样方法有效地提高了对不平衡数据的分类性能。