基于流处理改进的SK-means策略

作者:姜晓艳; 张伟*; 王佳慧; 马利民
来源:北京信息科技大学学报(自然科学版), 2021, 36(05): 51-56.
DOI:10.16508/j.cnki.11-5866/n.2021.05.009

摘要

针对大规模数据场景下K-means聚类算法存在总体速度较慢的问题,提出了一种基于大数据流计算框架Apache Flink,并结合流处理思想的SK-means策略。从算法优化方面,采用流处理的思想在数据读入的过程中确定聚类的初始聚类中心;从实现方案上,选用Apache Flink框架设计了一种基于SK-means策略的优化方案,分析该策略对聚类效果和耗时的影响。实验结果表明:该策略在数据量较大的场景中有较好的优化效果,不需要预先假设出聚类数量和初始聚类中心的具体值,有效地降低了聚类迭代次数,降低了整体计算耗时。