摘要

为了改进Map Reduce早期版本在大数据聚类算法方面的性能,文章提出了基于Yarn(Yet Another Resource Negotiator)云计算平台与非负矩阵分解NMF(Nonnegative Matrix Factorization)的大数据聚类方法。文章讨论了高维数据相似性聚类与非负矩阵分解的结合及其面向Map Reduce的数据聚类的任务划分方式。该方法的实现采用Hadoop2.0的Yarn平台,利用Hadoop的HDFS(Hadoop Distributed File System)来存储大容量的外部数据;描述了基于NMF的大数据相似性聚类方法的编码与实现过程,并以电信运营商的大数据作为案例程序进行了测试。实验结果表明,Yarn云平台比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。

  • 单位
    河南财经政法大学; 信息工程大学