摘要
针对火电厂数据量大且复杂的特点,通过采用基于spark的并行回归算法,解决了传统供电煤耗回归预测模型所需的运行时间较长且预测精度较低的问题。本文采用了大数据平台中采集到的某电厂周期为一年的运行数据,对数据进行异常值筛选、空值填补等清洗及预处理过程,并对工况进行判稳,选取稳定工况下的健康数据进行数据分析,最后利用灰色关联度分析方法选择关联度最大的12个特征,对火电厂供电煤耗进行预测。通过参数调优建立基于spark的火电厂供电煤耗的随机森林和梯度提升决策树的并行回归模型,最后对实验结果进行比较分析和总结。结果表明,随机森林回归模型和梯度提升决策树回归模型对火电厂的供电煤耗都有较好的预测效果,但随机森林回归模型预测的准确度相对更高。
- 单位