边界与密度适应的SMOTE算法研究

作者:梅大成; 陈江*; 郑涛
来源:计算机应用研究, 2022, 39(05): 1478-1482.
DOI:10.19734/j.issn.1001-3695.2021.09.0410

摘要

针对合成少数类过采样技术等基于近邻值的过采样算法在处理数据类不平衡时,不能根据少数类样本分布情况及时调整模型参数,导致过采样后的数据集引入噪声,并且在原始分布区域上无差别地合成少数类实例造成过拟合等问题,提出了一种特征边界和密度适应的SMOTE算法(SMOTE algorithm for feature boundary and density adaptation, BDA-SMOTE)。该算法为每一个少数类样本规划安全区域,增加少数类的分布,同时基于数据的分布密度动态地调整模型参数,确保生成的数据具有明显的特征边界,防止过拟合。在公开数据集KEEL上与常用的SMOTE算法进行实验对比,结果BDA-SMOTE的性能优于其他基于近邻SMOTE算法。表明该算法较好地扩展了原数据集的分布,同时合成的噪声样本更少。