摘要

密度峰值聚类算法倾向在球形分布数据中选择密度峰值,而流形数据多呈非球形分布,导致不能准确找到数据的类簇中心.该算法的分配策略优先对类簇中心附近的样本进行链式分配,而流形数据大量样本远离其类簇中心,导致本应属于同一类簇的样本被错误分配.为此,本文提出一种面向流形数据的测地距离与余弦互逆近邻密度峰值聚类算法.将K近邻与测地距离结合并重新定义局部密度,凸显密度峰值与非密度峰值的差异,准确找到类簇中心;将互逆近邻和余弦相似性相结合,得到基于余弦互逆近邻的样本相似度矩阵,为流形类簇准确分配样本.实验结果表明,本算法能有效发现流形数据集的几何形状并准确聚类,对真实数据集和图像数据集的聚类效果优秀.