摘要
针对密度峰值聚类算法对密度分布不均衡数据聚类效果不佳及分配存在缺陷的问题,提出了一种基于双重密度和簇间近邻度的密度峰值聚类(DI-DPC)算法。首先,构造了双重密度计算公式,该公式不仅将基于截断距离与基于K近邻的密度计算方法相结合,而且考虑全局范围内样本间的相互作用,使寻找的簇类中心更加准确;其次,将剩余样本点分配给距离最近、密度更大的样本点所在簇,生成微簇;最后,依据簇间近邻度进行微簇合并,提高样本分配的容错性。实验结果证明,改进算法在准确率、调整兰德系数和调整互信息上都有明显的提升,证明了DI-DPC算法的有效性。
- 单位