基于Spark框架的CFSFDP改进算法

作者:李琪; 张欣; 张平康; 张航
来源:电子科技, 2019, 32(05): 38-54.
DOI:10.16180/j.cnki.issn1007-7820.2019.05.008

摘要

CFSFDP算法是一种基于密度的新型聚类算法。文中针对算法需使用决策图人工选取聚类中心点的问题,利用斜率思想找出聚类中心点与非聚类中心点间的分界点,在消除主观误差的同时实现了中心点的自动求取,并最终将算法使用Spark框架进行了并行化实现。实验结果表明,文中算法在消除人为误差的同时提升了算法效率,且并行后的算法具有良好的加速比与扩展性,适用于海量数据的聚类分析。

全文