摘要
随着电力通信技术的发展,产生了大量分布式电力通信子系统以及海量电力通信数据,在海量数据中挖掘重要信息变得十分重要。聚类分析作为数据并行化处理和信息挖掘的一个有效手段,在电力通信中得到了广泛的应用。然而,传统聚类算法在处理海量电力数据时已不能满足时间性能的要求。针对这一问题,提出了一种基于Map Reduce模型的并行化k-medoids聚类算法,首先采用基于密度的聚类思想对k-medoids算法初始点的选取策略进行优化,并利用Hadoop平台下的Map Reduce编程框架实现了算法的并行化处理。实验结果表明,改进的并行化聚类算法与其他算法相比,减少了聚类时间,提高了聚类精度,有利于对电力数据的有效分析和利用。
-
单位广东电网公司