摘要
厂站设备运行状态数据受数据采集与通信设备缺陷、水电设备故障等因素影响,常会存在部分冗余、异常或缺失的数据。优秀的数据质量是高级应用的可靠保障,数据清洗是提升数据质量的关键途径。本文针对水电设备运行数据的清洗方法展开研究,介绍了水电数据类型与特性,并从异常数据识别、数据滤波和缺失数据插补三方面,对流行数据清洗方法进行了适用性分析,如统计法、卡尔曼滤波、随机森林预测法等。最后以某水电厂实际数据作为样例,应用多种数据清洗方法提升样例数据质量,开展方法对比的定性定量评价,旨在为后续水电高级应用的数据处理工作提供指导。