摘要

为应对不均衡分类问题,提高分类准确率,提出了一种基于高斯混合模型的混合采样集成方法 GMHSE(GaussianMixture-model-based Hybrid Sampling Ensemble method),首先通过高斯混合模型将数据划分成多个类簇,然后在每个类簇上混合采样获得多个数据子集,最后基于Bagging技术在类簇内和类簇间进行加权投票完成分类预测。GMHSE通过聚类将对数据进行划分,混合采样保障在不丢失数据信息的同时获得均衡数据集,最后利用集成学习进一步提升模型的泛化性能。实验结果表明,相比已有的一些处理方法,GMHSE可以提升不均衡数据的分类性能。

全文