摘要

在电力系统的大数据背景下,对电力运维数据进行数据清洗可以有效地改善数据质量,为数据分析做好基础。在数据清洗过程中,电力数据异常检测准确度低与数据修正误差大等问题一直是技术难点。针对这些问题,提出一种基于改进的孤立森林(Isolation Forest)算法和BP神经网络算法的数据清洗方法。该方法构造孤立森林对训练数据集的特征进行提取,并检测出数据集中的异常数据,再使用改进的BP神经网络模型对异常数据处进行预测修改。试验结果表明,基于改进方案的电力运维数据清洗程序在异常数据定位准确性、数据修正准确率、训练时间和资源占用等方面都得到了有效的优化。