摘要
针对2014年6月发表在Science的密度峰值点快速搜索聚类算法的样本局部密度定义和样本分配策略的缺陷,提出一种基于K近邻的快速密度峰值搜索并高效分配样本的聚类算法.算法利用样本点的K近邻信息定义样本局部密度,搜索和发现样本的密度峰值,以峰值点样本作为初始类簇中心;提出两种基于K近邻的样本分配策略,依次分配样本到相应类簇中心,得到数据集样本的分布模式.理论分析和在经典人工数据集、UCI数据集及Olivetti人脸数据集的对比实验表明:提出的基于K近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇中心,并合理分配样本到相应类簇,揭示数据集样本的分布模式,对噪声数据具有非常好的鲁棒性,聚类结果优于2014年6月发表在Science的密度峰值点快速搜索聚类算法,以及经典聚类算法AP,DBSCAN和K-means.本文算法是一种非常有效的聚类算法,可用于发现任意数据集的隐藏模式与规律.
-
单位陕西师范大学; 深圳大学信息工程学院