摘要

Mahout是Apache下全新的开源项目,提供了一些使用Map Reduce编程模型完成的机器学习和数据挖掘算法,旨在帮助开发人员更加方便快捷地创建智能应用程序。本文介绍Canopy Clustering算法思想,然后利用Map Reduce编程模型实现路透社21578新闻集对其进行聚类分析来验证该算法的并行性、可用性和有效性,并利用不同的距离度量方式对Canopy算法的运行速度和聚类效果进行了对比,得到余弦距离度量方式是选取的度量方式中比较优秀的方法。

  • 单位
    电子科技大学成都学院

全文