摘要

伴随着气象类数据量的快速增长,经典K-Means算法在解决大规模量数据的聚类问题上存在着数据扩展性的问题。针对这一问题,文中提出一种将经典K-Means算法与Hadoop云计算平台结合的HKM算法,运用Hadoop云计算平台的Map Reduce编程模型使得K-Means算法并行化实现,并搭建Hadoop集群实验测试HKM算法的性能。实验的结果表明,HKM算法在处理海量的气象类数据聚类问题上,不仅能够很好的解决数据扩展性问题,而且具有良好的聚类结果。