自适应谱聚类算法并行实现及优化

苏琳; 赵永华; 李瑞琳

摘要

谱聚类算法是基于谱图分割理论的聚类方法,其对高维、非凸数据分布问题有很好的聚类效果。但对大规模数据问题的聚类,该方法存在着计算时间和存储空间等方面的瓶颈。本文给出了一个自适应的谱聚类并行算法,通过局部计算和异步循环通信并行方法,最大限度减少了并行谱聚类中数据通信次数,并通过计算与通信重叠策略,进一步降低了并行算法的通信开销。在并行算法实现中,将自主开发的最优预条件共轭梯度法并行求解器PLOBPCG用于谱聚类的特征降维。在中科院的"元"超级计算机上,通过对两类大规模数据聚类的测试表明,在2048核上的加速比接近线性加速,并行效率达到96%以上。

单位
中国科学院大学; 中国科学院计算机网络信息中心

收藏分享被引浏览

更新时间：2024-05-13 11:46

自适应谱聚类算法并行实现及优化

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友