基于欧式距离聚类的自适应过采样方法

作者:董洪荣; 付亚军; 张帅; 余亚强; 陈军; 谢德红*
来源:印刷与数字媒体技术研究, 2023, (05): 26-41.
DOI:10.19370/j.cnki.cn10-1886/ts.2023.05.003

摘要

很多分类器难以识别不平衡数据中的少数类,给缺陷检测等众多应用带来了挑战。当前许多过采样方法虽可有效增加少数类样本,但却存在类重叠增加的风险。本研究提出了一种基于欧式距离聚类的自适应过采样方法。该方法采用基于欧式距离的构造覆盖算法对少数类进行聚类,然后自适应识别出相对安全和靠近分类边界的少数类聚类,再在此聚类内采用SMOTE采样步骤合成新少数类样本。通过10个不平衡数据集以及G-mean、F1-measure、AUC等指标验证。实验结果显示,与现有过采样方法相比,该方法在大多数数据集上,G-mean、F1-measure和AUC三个指标均最优。结果表明,本研究方法有效弥补现有分类的缺陷,获得较好分类结果。

全文