摘要
复杂网络是由一系列具有一定关联性和独立性的社区结构所构成。在社区发现的相关算法中,针对传统谱聚类存在无法计算社交网络中的高维数据,同时聚类过程中对于大规模数据计算耗时时间过长的问题,提出基于用户特征的谱聚类算法。引入了余弦相似度将高维数据进行特征降维计算,并更新传统谱聚类中的相似度矩阵,提高用户之间划分社区的准确性,同时,使用Mini-Batch K-means算法代替传统算法聚类过程中的K-means算法,既保证社区划分的质量,又减少算法聚类过程所花费的时间,提高算法的运行效率。最终在Spark平台下通过在不同规模的微博数据集进行对比实验,并采用Davies-Bouldin指数和时间指数验证。实验结果表明,改进后的算法Davies-Bouldin指数较好,时间指数相对减少,可以有效解决谱聚类处理大规模数据存在的效率问题。
-
单位河北建筑工程学院