摘要
文章通过分析传统的空间聚类算法以及新发展的聚类分析方法,最终选K-means算法进行研究。基于Hadoop平台,采用HDFS(分布式文件系统)存储数据,结合MapReduce编程模式,对K-means算法进行设计以及编程实现,最后实现了该算法在Hadoop平台上的并行化。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理空间数据时,该算法有效地减少了时间复杂度,大大提高了实施效率和结果的准确性。
-
单位西藏自治区科技信息研究所