摘要

针对传统大数据聚类算法中存在效果差和时间复杂度高的问题,本文提出一种基于增量随机抽样的大数据迭代优化模糊C-均值算法(FuzzyC-MeansAlgorithm,FCM)算法。该算法在大数据聚类期间引入增量式技术,对块内数据点执行并行计算处理,而且在迭代过程中无须存储庞大的隶属度矩阵,从而使得在不影响聚类结果质量的情况下大大减少运行时间和存储空间,能够有效提升聚类执行速度。实验结果表明,相对于其他聚类算法,本文提出的算法在几种聚类指标中的性能突出,而且在计算效率和放大性能方面对大数据聚类十分有效。

  • 单位
    云南师范大学商学院