摘要

在数据挖掘研究领域, 分类任务广泛存在着数据分布不均衡问题, 例如制造状态检测, 医疗诊断, 金融服务, 等等. SMOTE是处理不均衡数据分类问题的常用技术, 与Boosting算法相结合可进一步提升分类系统性能, 但是这种集成学习容易导致基分类器多样性缺失. 基于此, 本文提出了一种基于高斯过程SMOTE过采样的Boosting集成学习算法, 即(Gaussian-based SMOTE in Boosting, GSMOTEBoost). 该算法在Boosting集成框架下构建不均衡学习模型, 为了提高分类系统的鲁棒性, 采用基于高斯过程SMOTE过采样技术来增加基分类器训练样本的多样性...