摘要

针对大数据由于数据复杂性、异构性、安全性、可伸缩性和大规模数据量而难以预测分析的问题,提出了基于增强可伸缩随机森林(Enhancing Scalable Random Forest,ESRF)的高维大数据预测分析系统.该系统通过在训练数据集上执行超参数优化来提升可伸缩随机森林(Scalable Random Forest, SFR),然后对预处理数据应用主成分分析(Principal Component Analysis,PCA)和信息增益(Information Gain,IG),对不影响模型的特征进行缩减以减少模型开发阶段的处理时间开销.实验结果表明,本文系统可以提供出色的预测能力,而且可以在整个实验数据集中以最少的处理时间提供有效的性能.

  • 单位
    重庆工程学院