摘要

针对基于快速搜索和发现密度峰值的聚类算法(CFSFDP)中截断距离需要人工选取,以及最近邻分配带来的误差,导致在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类算法(ARD-DPC)。该算法利用非参数核密度估计方法计算点局部密度,根据决策图选取聚类中心,利用自适应可达距离分配数据点,得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法与CFSFDP以及其他两种聚类算法进行了比较,实验结果表明,所提算法的标准化互信息(NMI),兰德指数(RI)和F1值分别最大提高了约78个百分点,40个百分点以及53个百分点;同时,所提算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。