摘要
近年来,如何提高不平衡数据分类精度的问题受到广泛关注。对于不平衡数据问题主要从数据集和算法两方面来解决。研究提出一种基于k-means++聚类算法和过采样的堆叠算法(K-SMO-Stacking)。在Stacking集成算法基础上将k-means++聚类算法应用到分类过程当中,形成新的少数类和多数类,用过采样方法生成更多更密集的少数类样本,均衡数据集后再进行回归训练。实验在多份金融不平衡数据集上进行验证,结合AUC、F1-score和G-mean主流评价指标,结果显示该算法在不平衡金融数据中的分类性能有显著提高。
- 单位