摘要

聚类是机器学习领域的重要研究方向。在过去的几十年中,针对不同类型的中小型数据集聚类算法的研究取得了长足的进步,许多有效的算法相继问世。但是,当这些算法用于处理大规模数据集时,它们的计算复杂度很高,并且它们处理高维数据的能力也很弱,难以获得令人满意的结果。随着大数据时代的到来,数据的收集和存储变得相对容易和方便,但数据量也有大量的提升。因此,针对各种实际应用的聚类问题,特别是对于大规模数据集而言,聚类算法是很好的解决方案,采用类似算法解决相关问题已成为机器学习领域的重要任务之一。基于大规模数据集的可计算性,文章回顾并分析了串行和并行计算环境中大规模数据集当前使用的聚类算法,包括用于案例选择、增量学习、特征子集和特征转换的聚类算法,以及在并行计算环境中基于MapReduce、Spark和Storm框架的聚类算法。

  • 单位
    衡水学院