摘要

针对传统支持向量机在数据非均衡的情况下分类效果很不理想的问题,提出一种基于关键指标过采样的非均衡支持向量机分类算法。依据信息增益理论确定样本的关键指标,建立了基于区间数的关键指标扩展方法,利用超立方体顶点采样方法对扩展后的样本进行了过采样,进而使少数类样本的数量得到均衡;最后建立SVM分类模型并对区间化指标进行寻优,进而确定最终分类结果。实验结果表明,所提出算法相对其他非均衡算法能有效提高分类性能,尤其样本指标较多的情况下,本文算法优势更为明显。