摘要
针对OPTICS算法存在着对于密度不均匀以及高维数据聚类效果差的问题,提出了基于数据分区的OPTICS聚类算法(DP-OPTICS)。该方法计算所有样本点的K距离(K-dist)值,用改进的K均值算法对K-dist值进行单维度聚类,并依据肘图拐点的位置调整K值大小,以此实现数据分区;在分区内用OPTICS算法进行局部聚类,最后按一定规则将数据分区合并。选取多个不平衡人工数据集和UCI数据集进行对比实验,实验结果表明:改进的算法是切实可行的,明显提升了OPTICS算法对于数据密度不均匀问题的聚类质量,并且对高维数据也有着较好的处理能力,具有很强的鲁棒性。
- 单位