摘要

为解决不平衡数据内在固有性引发的分类结果受强势类影响较大的问题,研究基于KL距离的不平衡数据渐进学习算法,精准地辨识出不平衡数据中的弱势类样本,提高算法分类性能。在深入分析KL距离和欠抽样法的基础上,使用欠抽样法平衡化处理不平衡数据集,采用基于KL距离的不平衡数据半监督学习算法,以渐进模式,通过寻找可靠正例、可靠反例,实现处理后数据集的最终分类。实验结果表明,上述算法的G-mean值始终较高,可极大地提高算法分类性能;所提算法使用后的F-measure值在任何抽样比例下都高于使用前的F-measure值,且在抽样比例较大时,F-measure值呈缓慢上升趋势,能很好地分类出不平衡数据集中的弱势类样本。

  • 单位
    山西大同大学