基于Spark的主动重叠K-means聚类算法

作者:柴变芳; 李有熠
来源:微电子学与计算机, 2021, 38(01): 70-76.
DOI:10.19304/j.cnki.issn1000-7180.2021.01.013

摘要

别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-means算法获得局部聚类中心,将结果汇总回收到Master节点,在Master节点运行重叠K-means算法聚合所有聚类中心,作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心,提高算法准确性、收敛速度.实验结果表明,改进后的主动重叠聚类算法提高了算法准确性,降低了算法运行时间.

  • 单位
    河北地质大学

全文