传统的K-means算法迭代过程中需要加载全部的聚类样本数据,并且更新类中心过程是非并行的。针对传统Kmeans算法处理数据规模小和类中心更新慢的问题,提出一种改进的K-means算法,面向解决K-means单台机器处理数据规模扩展问题,和处理器利用率低效问题。实验验证,该方法能够高效地处理大规模数据聚类。