摘要
在传统的随机森林算法中,随机森林由多棵决策树组成,分类的结果由所有的决策树共同投票决定。随机森林算法在训练决策树的过程中,单棵决策树训练样本的随机采样使得训练产生的决策树模型分类性能有所差别。训练样本的非均衡性会使随机森林模型更偏向大数据样本,使得小样本数据分类性能欠佳。为此,提出了KC-RF算法。该算法的过采样数据分为两部分:第一部分利用k-means对小样本数据进行聚类,在聚类中心周围根据欧式距离采样部分数据,用以表征样本;第二部分以小样本数据中心CM和大样本数据中心间的类间距作为标准进行样本插值。将过采样产生的两部分数据和原来的小样本数据共同组成训练样本,再使用随机森林进行分类。通过在KEEL数据集上的实验证明,所提算法的分类精度提高明显。
- 单位