摘要

代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,针对此问题,结合代价敏感学习思想与核主成分分析KPCA提出一种代价敏感的Stacking集成算法KPCA-Stacking。首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维处理;其次将KNN、LDA、SVM、RF按照贝叶斯风险最小化原理转化为代价敏感算法作为Stacking集成学习框架的初级学习器,逻辑回归作为元学习器。在5个公共数据集上对比J48决策树等10种算法,结果表明代价敏感的KPCA-Stacking算法在少数类识别率上有一定提升,比单个模型的整体分类性能更优。