摘要

在处理非平衡大数据集中,提出一种基于优化SMOTE方案的分类算法研究,在临近样本插值分类中引入分簇聚类的理念,具体分为安全样本、危险样本和干扰样本,并重点对安全样本做插值处理。对插值后的数据样本做区间化处理,能够改善插值后数据过于集中的状况,提高样本分布的均匀度。算法性能验证结果表明,分类算法的规模成长性更好,具有更强的数据集扩展能力,在多数据集性能分类对比实验中,提出的改进算法的MATLAB仿真性能具有明显优势。

  • 单位
    宜宾职业技术学院