MapReduce实现的改进决策树

作者:柴志远; 王小妮*
来源:北京信息科技大学学报(自然科学版), 2020, 35(06): 14-18.
DOI:10.16508/j.cnki.11-5866/n.2020.06.003

摘要

针对某些数据集中不同属性对类别产生的影响程度有所不同,提出了属性权值的概念,用于改进C4. 5决策树算法。通过计算得到不同属性在分类过程中对类别的重要程度,分别赋予不同属性不同的权值,以不同权值计算属性信息增益率,从而找到最佳决策属性;同时将算法运行在HDFS集群,通过Hadoop平台控制多台计算机同时处理待分类数据集,以并行的方式构造决策树。实验结果表明,改进的C4. 5算法在处理不同属性对分类结果影响程度不同的数据时比传统C4. 5算法具有更高的准确率,并且由于程序并行运行,能够更加高效地处理大型数据,具有很好的可扩展性。