摘要
本文针对密度峰值聚类算法(CFSFDP)无法自动选取簇中心的不确定性问题,通过引入三支决策理论对其进行优化,提出了一种基于簇中心预选策略的三支决策密度峰值聚类算法(TDPC)。首先利用密度和距离两参数的统计特性将数据对象划分核心域、边界域与琐碎域,符合条件的聚类中心被置于核心域,难以判定的疑似聚类中心点则被置于边界域,然后通过定义的k-可达域和判别准则对疑似聚类中心进行分析,选取出实际聚类中心。所提出算法有效解决了密度峰值聚类算法聚类中心自动确定问题。在2个人工数据集和4个UCI公共数据集上对TDPC进行测试。与CFSFDP算法和DBSCAN算法进行聚类性能比较,所提出算法TDPC在轮廓系数、DB指数、调整互信息、调整兰德系数、FM指数、同质性、完整性等聚类评价指标方面均达到最优或与最优算法结果相近,表明TDPC综合聚类性能优于比较算法,具有良好的聚类可行性与有效性。
- 单位