摘要

针对机器学习中单一特征选择方法性能不优良,结果稳定性差的问题,提出Spearman相关系数和XGBoost特征重要性混合的特征选择方法(SpearmanXgb),并结合RF、XGBoost和LightGBM 3种机器学习算法对ECMWF模式预报的广西春夏近地面2 m气温进行订正。结果表明:(1)混合特征选择方法在训练时间和均方根误差两方面,均优于单一的Spearman相关系数和XGBoost特征重要性特征选择方法,即训练时间减少19.7%和10.3%,均方根误差下降0.94%和0.64%。(2)3种模型预测的气温平均均方根误差相比模式分别下降了7.04%、7.47%和7.37%;预报前期(24~96 h)XGBoost的预报效果较好,预报中后期(120~240 h)LightGBM的预报效果较好。(3)由于广西东南部和东北部地形以山地、丘陵为主,地形较复杂,且易受台风、华南前汛期等复杂天气过程影响,气温变化幅度较大,ECMWF模式和3种机器学习模型对这两个地区的预报误差都较高。(4)利用SHAP值分析模型结果对各特征取值幅度的敏感程度,检验表明更准确的入选特征可不同程度降低模型的RMSE,为改善ECMWF模式预报效果提供了思路。

全文