摘要
网格密度峰值聚类在兼顾密度峰值聚类算法可识别任意形状类簇的基础上,通过数据集的网格化简化了整体计算量,成为当前备受关注的聚类方法。但针对大规模数据,如何进一步区分稠密与稀疏网格,减少网格密度峰值聚类中参与计算的非空网格代表点的数量,是解决“网格灾难”的关键。结合以网格密度为变量的概率密度分布呈现出类Zipf分布的特点,提出一种基于Zipf分布的网格密度峰值聚类算法。首先,计算所有非空网格的密度并映射为Zipf分布,根据对应的Zipf分布筛选出稠密中心网格和稀疏边缘网格;而后仅对稠密中心网格进行密度峰值聚类,在自适应确定潜在聚类中心的同时减少欧氏距离的计算量,降低算法复杂度;最后,通过对稀疏边缘网格的处理,进一步优化类簇边界并提高聚类精度。人工数据集和UCI数据集下的实验结果表明,所提算法对大规模、类簇交叉数据的聚类具有明显优势,在保证聚类精度的同时降低了时间复杂度。
- 单位