在分析Spark并行计算框架的基础上,结合K-means聚类算法特征,设计了一种基于Spark的图像聚类并行化算法,该算法针对RDD进行分布式迭代计算,同时将运算的中间结果分布式缓存到各个节点的内存中,有效降低了内存读取和磁盘I/O操作的延迟,有效提高了并行计算效率。经测试,该算法提高了图像聚类的性能。