摘要
针对当前电力数据海量异构和共享度不高的问题,结合Hadoop和电力企业数据共享的必要性,提出一种基于Hadoop的数据集成管理平台。为实现该平台,首先利用HDFS分布式文件系统对元数据进行管理,以提高海量数据的集成管理效率;采用HBase的数据共享模式,提高数据共享度;最后针对传统Apriori算法的问题,对Apriori算法进行改进,具体则是引入MapRduce并行化处理框架对算法进行设计,以提高Apriori算法运算效率,进而达到提高电力元数据挖掘效率。最后搭建Hadoop平台,验证上述平台在对海量电力元数据挖掘中的效率。
-
单位广东电网有限责任公司; 广东电网有限责任公司信息中心