摘要
针对传统分类算法在面对特征维度较高且极端不平衡的样本时分类性能下降、容易过拟合等问题,提出了一种改进的基于Bagging思想的RUSBoost组合模型:Bagging-RUSBoost。算法首先对RUSBoost的样本权重更新方式进行了改进,并增大了少数类的样本权重;其次在结合了KL散度的自编码器模型中提取降维后的隐含特征,输入到改进的加权Bagging组合分类器,得到最终的分类结果。在UCI和Fashion-MNIST数据集上进行验证,结果表明模型在召回率、F1 score、G-means、AUC等性能指标优于其它四种不平衡算法。实验证实了模型在面对高维度不平衡样本时具有良好的分类精度和泛化能力。
- 单位