摘要
针对传统的大数据聚类中心点确定方法存在用时较长、准确性较低等问题,提出了一种基于约束满足的大数据聚类中心点确定方法。将数据分布密度与增加数据关键点密度权值两种方法相结合,对大数据初始聚类中心进行K-means聚类,并获取最优聚类数目。通过最优聚类数目构建微型相似性矩阵,采用Gabow算法提取该矩阵所对应连通图的各个强连通分支。在强连通分支的基础之上,通过约束传播算法获取整个数据集的点对相似度,并利用点对相似度和奇异值分解确定大数据聚类中心点,实现数据聚类。实验结果表明,所提方法对具有更高的聚类准确性以及更低的聚类时间,适合海量数据的聚类应用。
- 单位