摘要
本发明公开了一种基于Spark平台运行的P-CFSFDP密度聚类方法,基于快速搜索进行聚类并找出密度峰值(CFSFDP)算法思想,实现一个可以在Spark平台上运行的P-CFSFDP密度聚类方法,同时改进现有方法的缺陷,在数据结构和自动选取中心点方面进行功能优化。该方法通过Spark并行处理,通过对输入数据进行密度和距离的定义,将一组(抽象或具体)的对象分组到多个类中,通过某种标准或规则使得同一类中的对象尽可能相似,不同类中的对象尽可能不相似。本发明基于Spark平台,通过计算输入数据的密度值和距离值进行密度聚类,提升聚类的计算效率、计算精度和准确性,有助于快速实现大数据聚类和分析。
- 单位