一种基于聚类约简决策树的改进随机森林算法

作者:王诚; 王凯
来源:南京邮电大学学报(自然科学版), 2019, 39(03): 91-97.
DOI:10.14132/j.cnki.1673-5439.2019.03.013

摘要

传统随机森林算法为了提高分类准确率,常常需要构建大量的决策树模型。由于训练数据集的复杂性以及传统随机森林在构建过程中引入的随机性,算法在训练过程中会生成部分分类性能差和相似度较高的决策树,影响模型的整体分类性能。针对这个问题,提出一种基于决策树聚类的改进随机森林算法(Trees Clustering Random Forest,TCRF),从分类精度和相似性角度去除不合格的决策树,根据AUC值从原始森林中提取出相对高精度子森林,利用基于Kappa统计量的距离度量方法对子森林聚类,从划分出的簇中选取具有代表性的树组成高精度低相似的森林。实验结果证明:改进后的算法在集成准确率以及分类效率上要高于传统随机森林算法。

全文