摘要
电网数据治理需要从海量信息中提取有价值的部分,并且去除异常数据。然而,由于缺失值、数据差异和非线性数据关系等问题,现有的数据治理方法在处理大型用电数据集时可能无法应对,并且缺乏协调电力数据分析程序的综合基础设施。为了解决这些问题,开发了一个简单而有效的数据治理模型。首先,将3个模块组合到该模型中,第一个模块部署了数据归因、离群点处理、规范化和类平衡算法,以增强时间序列特征,并产生更好的数据质量,以改善分类器的训练和学习。其次,使用3种不同的机器学习方法作为基础学习模型,这些方法互不相关,对问题各有侧重。然后,使用时间卷积网络整合机器学习算法的输出,以提高分类精度。实验结果表明,与其他方法相比,所提出的方法实现了高度准确、稳健的数据治理性能,验证了该方法的有效性。
-
单位广州信安数据有限公司