摘要
别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-means算法获得局部聚类中心,将结果汇总回收到Master节点,在Master节点运行重叠K-means算法聚合所有聚类中心,作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心,提高算法准确性、收敛速度.实验结果表明,改进后的主动重叠聚类算法提高了算法准确性,降低了算法运行时间.
-
单位河北地质大学