基于改进决策树的配电网多源数据快速检索

作者:柯强; 陈志华*; 胡经伟; 陈焕军; 邳志旺; 张晗; 周雪松
来源:计算机系统应用, 2021, 30(02): 97-102.
DOI:10.15888/j.cnki.csa.007796

摘要

当前,电网中含有海量的多源信息数据,但是由于数据体量大、种类多、维度高,难以实现高效有效的数据检索.因此本文根据实际电力运行系统的数据结构及多源数据库样本分析,提出了一种基于互信息的改进决策树算法作为数据挖掘内核,并提出适用于电力系统的并行处理架构,可实现多源数据的快速、有效信息检索,并有效处理实时数据.在搜索时根据代表性特征子集直接从多源信息原始数据提取信息,判断索引信息量并排序形成决策树模型,通过Spark MapReduce Python数据分解并行检索实现多源数据同时提取,缩短检索时间.本文以某区域电网数据库为算例进行模拟验证,结果表明:该方法可以实现配电网的多源异构信息提取,有效避免重复数据,满足在线工程决策要求.

全文