摘要
地处中国传统重工业基地并且作为一个典型的燃煤供暖大型城市,沈阳的空气污染问题日趋严重,特别是PM2.5浓度发展趋势受到各界的广泛关注。传统机器学习模型绝大多数都是基于空气质量监测数据和气象条件数据进行训练的,不仅预测结果不够精确,也不能鉴别空气污染形成因素以至于无法有效管控。本文提出了一种面向多源数据的PM2.5浓度预测研究框架,在传统的基础上,纳入了区域内工业污染源排放量和供暖企业排放量数据,同时结合污染源位置信息和排放时间点等地理时空数据;将上述数据输入到基于极端梯度提升(XGBoost)的PM2.5浓度预测集成学习模型中,既有效提升PM2.5浓度预测精度,也可获得特征因子的贡献度分析。实验结果表明,污染源与监测点的距离和排放量是影响PM2.5浓度最重要的两个因素;根据重要性排序进行特征因子选择重新训练模型,发现新的预测结果在72%评价指标上都得到了提升。
- 单位