摘要
传统的分类算法难以满足不平衡数据的分类要求,研究一种有效、准确率高的不平衡数据分类算法具有重要意义。目前的研究主要以欠采样和过采样以及对应的一些改进方法提供实验数据。然而大多数实验方法不是使用范围有限就是侧重点不同,使少数类分类性能不佳,同时也难以区分强弱分类器。本研究从数据分布入手,提出一种改进随机森林分类算法。即先采用ADASYN算法进行过采样,再采用ENN算法进行欠采样。为了能更好区分强分类器和弱分类器的分类性能,最后采用加权投票机制。实验结果表明,该算法有较好的分类性能和准确度。
-
单位宁德职业技术学院