摘要

大气污染物浓度数据具有时序性和非线性的特点,针对时间序列数据中的异常值和缺失值问题,进行异常值和缺失值预处理对长短时记忆神经网络(LSTM)预测精度的影响分析。利用箱线图法判别数据序列中的异常值,以均值替换法、回归插补法和多重插补法进行缺失值的预处理,分别利用原始数据序列和不同预处理方法得到的数据序列,对多变量输入LSTM神经网络的大气污染物预测精度进行对比分析。实验结果表明,三种预处理方法均可明显改善LSTM模型的预测精度,多重插补法精度最高。