摘要
利用Hadoop,Spark,Hbase等构建分布式大数据分析平台,在此基础上通过数据采集和预处理获得健康的数据集,建立并行随机森林算法的能耗回归预测模型,全面分析和比较基于随机森林预测模型的输入与模型参数、输出之间的关系。重点比较分析了决策树数量、决策树深度、最大分裂数等参数对训练模型精度、运行时效、复杂度的影响,得到该预测模型的最优化参数,实现供电煤耗的精准预测与软测量计算。
- 单位
利用Hadoop,Spark,Hbase等构建分布式大数据分析平台,在此基础上通过数据采集和预处理获得健康的数据集,建立并行随机森林算法的能耗回归预测模型,全面分析和比较基于随机森林预测模型的输入与模型参数、输出之间的关系。重点比较分析了决策树数量、决策树深度、最大分裂数等参数对训练模型精度、运行时效、复杂度的影响,得到该预测模型的最优化参数,实现供电煤耗的精准预测与软测量计算。