摘要
针对传统的基于距离和密度的聚类算法存在的一些常见的问题,诸如不适用于密度多尺度变化的数据及非凸状数据聚类、聚类质量过于依赖参数、计算复杂度较高等,提出了一种基于区域生长及竞争的分级聚类算法。聚类过程分为三级:首先,第一级聚类基于欧氏距离,用距离阈值将对象划分为一定数目的小类来覆盖数据空间,同时降低算法复杂度;然后,第二级用空间数据区域生长的方法,用已获得簇心作为生长种子,在逐步放宽类半径准则的方法下进行生长,来解决变尺度数据密度聚类的问题;最后,第三级基于竞争的思想与密度相似性原则,计算簇心之间的权重,采取适当的规则进行簇的合并,来解决非凸状数据聚类的问题。实验结果表明,所提算法相较K-means及DBSCAN算法能在克服变尺度密度数据空间问题的基础上最大限度地提高聚类的准确度并缩短聚类时间。
- 单位