基于Spark的主动重叠K-means聚类算法

柴变芳; 李有熠

doi:10.19304/j.cnki.issn1000-7180.2021.01.013

摘要

别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-means算法获得局部聚类中心,将结果汇总回收到Master节点,在Master节点运行重叠K-means算法聚合所有聚类中心,作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心,提高算法准确性、收敛速度.实验结果表明,改进后的主动重叠聚类算法提高了算法准确性,降低了算法运行时间.

单位
河北地质大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-18 01:36

基于Spark的主动重叠K-means聚类算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友