摘要

密度峰值聚类是一类具有代表性的聚类分析方法,但针对复杂数据集时,其聚类效果较差。论文利用数据对象的近邻信息,提出了一种密度峰值聚类分析算法。该算法首先采用数据对象的K近邻,计算数据对象局部密度,并通过与其K近邻的密度和距离的比值得到邻域密度比,重新定义了DPC密度计算方法,有效地解决了DPC截断距离dc在选择上的随意性;其次利用数据对象之间的相似性度量,结合影响空间、共享K近邻和密度比,给出了一种新的数据对象之间的相似性度量方法;然后利用数据对象的距离和密度相似的影响因素并与相似近邻结合,改进了FKNN-DPC分配策略。最后采用UCI数据集,实验验证了该算法具有良好的聚类簇效果。