基于聚类混合采样的不平衡数据分类

作者:史明华; 吴广潮
来源:计算机与现代化, 2020, (05): 34-38.
DOI:10.3969/j.issn.1006-2475.2020.05.006

摘要

不平衡分类问题广泛地应用于现实生活中,针对大多数重采样算法侧重于类间平衡,较少关注类内数据分布不平衡问题,提出一种基于聚类的混合采样算法。首先对原始数据集聚类,然后对每一簇样本计算不平衡比,根据不平衡比的大小对该簇样本做出相应处理,最后将平衡后的数据集放入GBDT分类器进行训练。实验表明该算法与几种传统算法相比F1-value和AUC更高,分类效果更好。

全文