摘要

面对流形数据,密度峰值聚类算法(Density Peaks Clustering, DPC)的局部密度易找到错误的类簇中心且分配策略易导致远离类簇中心的剩余样本被错误分配。针对以上问题,本文提出了二阶K近邻和多簇合并的密度峰值聚类(Density Peaks Clustering with Second-order K-nearest Neighbors and Multi-cluster Merging, DPC-SKMM)算法。首先,利用最小二阶K近邻定义局部密度,凸显类簇中心与非类簇中心间的密度差异,从而找到正确的类簇中心;其次,利用K近邻找出样本局部代表点并依此确定核心点,用核心点指导微簇划分;最后,利用最小二阶K近邻及共享近邻定义的微簇间吸引度合并微簇,避免了远离类簇中心的样本被错误分配,且微簇合并过程无需迭代。本文将DPC-SKMM算法与IDPC-FA、DPCSA、FNDPC、FKNN-DPC、DPC算法进行对比,实验结果表明,DPC-SKMM算法能有效聚类流形及UCI数据集。

全文