摘要

不平衡数据分类是数据分析和机器学习的重要研究对象。类内的、类间的分布不均以及稀有样本均会导致模型训练结果不理想。本文以Leading-Club不平衡数据为研究对象,提出了重新划分数据的方法。一是对样本进行有效缩减,通过聚类算法有效提取未违约数据的共性,结合欠采样方法,保留有效特征;二是平衡分类信息,考虑类内的不平衡分类会导致模型难训练,为此借助特征相关性方法对不平衡分类重新进行划分。实验结果表明:通过这两种方法研究分析不平衡数据的违约与未违约占比,采用数据比为6.8∶3.2时模型训练最好,对比原始训练数据,实验表明能提高25%~30%的模型预测准确度。为金融领域和货款违约数据的不平衡处理提供了思路参考。

  • 单位
    江苏大学京江学院