基于Spark的并行图聚类算法研究

作者:刘东江; 黎建辉
来源:系统仿真学报, 2020, 32(06): 1038-1050.
DOI:10.16182/j.issn1004731x.joss.18-0722

摘要

对并行图聚类算法进行了研究。基于Spark提出了一个新的并行图聚类算法;由于Spark中的top操作需要耗费大量的内存,提出了一个新算法来替代top操作,有效减少了所消耗的内存;通过对自底向上的层次聚类算法进行改进提高了聚类的速度;基于图数据的特征提出了一种图数据过滤的方法来减少算法运行的时间以及所占用的空间并对其有效性进行了说明。仿真结果表明,运行效果优于进行比较的其他并行化图聚类算法。

全文