摘要
空气中的PM2.5是威胁人体健康的主要大气污染物,对其进行有效预测和及时预警具有重要意义.大量研究表明,纳入周边站点信息的随机森林模型在单站点PM2.5预测中显示出良好的效果,但在周边站点选取问题上目前尚缺乏针对性研究,部分选取方法带有主观性.本文提出了一种基于时间滞后互相关分析的周边站点优化选取方法,并以上海十五厂空气质量监测站(国控站)为例,构建了预测该站未来1~24 h PM2.5浓度的随机森林回归模型集,比较分析了预测模型中各输入因子的重要性.研究发现,预测站点当前PM2.5浓度值对未来1~16 h的预测最为重要,而气象要素中的风向则对于未来17~24 h的预测重要性最高;周边站点PM2.5信息随着预测时间的延长,其重要程度排名有明显提升,且不同站点对不同时间预测的影响具有显著差异,在建模时应区别对待,优化选取.比较结果表明,使用本文方法选取周边站点建立的预测模型不仅在RMSE等精度指标上具有一定优势(12 h和24 h预报RMSE分别降低11.8%和13.3%),还在有实用价值的污染事件空报率上有明显降低(12 h和24 h预报空报率分别降低16.1%和25.6%),具有业务应用潜力.
- 单位