摘要

研究Hadoop平台下的K-means聚类方法的并行化改进,针对传统K-means聚类存在的固有缺陷,提出通过密度计算来确定初始K值和初始中心点的方法,并设计了基于云计算Hadoop平台的并行化过程。实验证明,改进后的K-means聚类方法具有更好的性能,能有效地从海量数据中快速、高效地发现和获取真正有价值的信息。

全文