摘要

本文阐述了一种应用于大规模数据节点划分的改进网格密度峰值聚类算法。针对传统的密度峰值聚类算法距离矩阵计算时间长,人工选取阈值对聚类结果的影响较大,限制其在大规模数据集中的应用等缺点,本文采用基于自适应网格划分的密度峰值聚类,通过判断网格均衡来计算网格间距离,引入万有引力得到网格相对引力,通过极大值平均选取法自动得到密度与引力阈值。经过不同数据集的对比实验,本文提出的大规模节点划分算法在保证算法准确度的同时,其执行速度最高约提升了77%,由轮廓系数评估的聚类质量稳定在0.42左右。