摘要

基于大量历史数据的预测在环境治理、城市交通等领域已经成为必不可少的一个环节,预测的准确性对实际生产、调度等工作有着重要影响.受自然因素或人为因素的影响,一些数据表现出高波动性以及不确定性,导致无法充分发挥预测模型的最大优势.本研究以非结冰期含沙量预测为案例,探究了针对高波动性数据预测的优化方法,发现通过基于SHAP方法的特征选择优化、数据平稳化以及前期聚类可以有效降低对高波动数据的预测误差,MAE从初始模型的1.502降低到0.194,其中数据平稳化的优化效果最显著, MAE降低了76.51%,但随着平稳化的阶数增大,预测结果反而变差,这是由于随着平稳化的阶数越高,后续指数化的阶数也对应提升,从而导致误差的指数倍增长.此外,将聚类结果作为特征输入可以有效“引导”多层感知机的参数学习过程.

全文