本文提出了一种基于MapReduce的分布式聚类改进算法,该算法将聚类分两阶段进行,首先改进了Canopy算法,引入梯度变化来确定初始中心点以及最佳簇数,解决了传统算法对初始值的依赖性以及对聚类个数的不确定性.设置了区域半径并动态改变,避免了聚类过程中的局部最优,并采用了信息熵加权,解决了相似度计算的特征权重的问题.最终结合MapReduce分布式计算模型,设计了算法的并行策略与方案.试验结果表明该算法在准确性、加速比、扩展性上具有良好的性能。