摘要

不平衡数据集中,由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡数据集的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将这两种方法结合的研究不是很多,过采样和欠采样都具有一定的优势,因此设想将这两种方法结合起来,希望可以找到更好的方法。提出两种混合采样方法:Random-SMOTE+ENN和Random-SMOTE+TNS,并与几种典型的抽样方法在数据集上进行实验对比,实验结果表明提出的两种方法是可行有效的。

全文