在大数据时代,传统聚类算法已无法满足各领域的应用需求,如何改造使之适应大数据,是当前的研究热点。因此,提出基于Hadoop平台的并行化Canopy聚类算法,采用Map Reduce来实现并进行仿真实验验证,以加速比和聚类精确度作为评价指标,证明该算法在保证精确度的同时大幅提高运算速度。