面向不平衡数据分类的高维超球体过采样方法

作者:林静怀; 刘治宇; 李军良; 高欣*; 李泽科; 唐志军; 余斯航; 徐建航
来源:微电子学与计算机, 2021, 38(05): 65-72.
DOI:10.19304/j.cnki.issn1000-7180.2021.05.012

摘要

在机器学习不平衡分类方法研究中,由于多数类与少数类样本数量之间存在较大差异,导致分类器易出现判定准确率低的问题.以SMOTE为代表的一类过采样方法是处理该问题的一种有效手段.该类方法在选定的线段中随机生成少数类新点来重新平衡数据集,但存在忽略少数类样本在超维空间中分布多样性的缺陷.本文提出一种面向不平衡数据分类的高维超球体过采样(HS-SMOTE)方法.在少数类样本集上通过随机抽样获得需要平衡的样本数目,在此基础上依次对每一样本通过欧氏距离选取其在少数类分布空间中的对应最近邻点,以两点连线中点为球心在超维空间构建采样超球体,在此区域内通过维度空间距离迭代随机生成所需的少数类新点,在类别样本数据再平衡的基础上增加少数类样本的空间分布多样性.在15组KEEL不平衡数据集上结合随机森林(RF)分类器开展了大量实验,与6种典型过采样方法相比,所提方法在G-mean以及F1-score指标上均有较好的表现,并通过了2种统计学假设检验方法的有效性验证.

  • 单位
    国网电力科学研究院; 国网福建省电力有限公司; 国网福建省电力有限公司电力科学研究院; 北京邮电大学

全文