摘要
当前,电网中含有海量的多源信息数据,但是由于数据体量大、种类多、维度高,难以实现高效有效的数据检索.因此本文根据实际电力运行系统的数据结构及多源数据库样本分析,提出了一种基于互信息的改进决策树算法作为数据挖掘内核,并提出适用于电力系统的并行处理架构,可实现多源数据的快速、有效信息检索,并有效处理实时数据.在搜索时根据代表性特征子集直接从多源信息原始数据提取信息,判断索引信息量并排序形成决策树模型,通过Spark MapReduce Python数据分解并行检索实现多源数据同时提取,缩短检索时间.本文以某区域电网数据库为算例进行模拟验证,结果表明:该方法可以实现配电网的多源异构信息提取,有效避免重复数据,满足在线工程决策要求.
-
单位电子工程学院; 天津理工大学