数据挖掘的聚类算法Canopy-Kmeans是分析数据内在价值的常用工具之一,传统的基于集中控制的方式算法执行效率,在今天大数据环境下,有待改进。文章数据源为某省运营商在2014年7月经过脱敏后的话单信令数据,通过传统的集中控制方式和基于MapReduce的方式。通过实验,我们可以看出使用MapReduce方式具有良好的可行性,而且执行效率也得到明显改善[1]。