摘要
聚类分析是数据挖掘领域中最重要的任务之一,目前许多聚类算法已经被成功应用到图像聚类、文本聚类、信息检索、社交网络等领域.但面对结构复杂,分布不均衡的数据集时,确定数据集的最佳聚类数目显得尤为困难.因此,本文针对结构复杂、分布不均衡的数据集提出了一种启发式最佳聚类数确定的方法.首先,构建随机游走模型对数据集中的点进行重要性排序,通过k-最近邻距离图谱确定重要数据点的个数,由此排除噪声点和不重要的点对类之间以及类内密度变化的影响.其次,通过设计的启发式规则(k-最近邻链间距和k-最近邻链最近邻间距)构建决策图确定最佳聚类数目并识别出聚类代表点.最后,通过最近距离传播算法进行聚类.实验表明该方法可以快速准确地找到最佳聚类个数,同时,本文提出的聚类算法与流行的聚类算法相比取得了比较好的聚类结果.
-
单位重庆电子工程职业学院; 重庆大学