摘要
校园网络大数据集的有效挖掘以提高信息的使用价值,对校园网络优化有着极其深远的影响,为此,本文提出一种基于leaders算法的校园网络大数据聚类改进算法leaders-k-means算法,算法首先通过leaders算法对校园网大数据集进行初始聚类,并根据初始聚类中心对校园网络大数据进行多次随机抽样形成多个小样本集,然后利用初始聚类中心做为初始值对每个小样本集进行k-means聚类,既保证了k-means算法初始值设置的合理性,又使得算法在一个较小的样本集中聚类,提高效率,最后对聚类后的多样本集合并,利用自下而上的层次聚类方法重新聚类获得原始样本的聚类中心.算法融合了层次方法、划分方法以及密度方法的优势,通过对比实验验证,算法取得较好的聚类效果.
- 单位