摘要
K-means算法是一种经典聚类算法,其优势是简单高效。特别在面对大型数据集时,上述算法仍能保持高效性和可伸缩性,因此K-means算法仍具有广泛应用前景。K-means算法对初值敏感,初值的选取对算法执行的效率和结果均有影响。为了最好的利用K-means算法在大数据集上的高效,规避其初值敏感等缺点,提出一种算法,通过利用自下而上的凝聚方法对抽样数据进行有监督的迭代划分,最后取抽样数据上CH估分最高的类数k和类中心作为入参输入K-means,在完整数据集上进行聚类。通过对多个UCI真实世界数据集的聚类实验表明,面对样本数为1797、有64维属性的数据集时,基于聚类标签的归一化条件熵度量(V-measure)比随机中心K-means平均改善113%(733/628/3+723/605/3+744/652/3)、时间效率比后者提高10倍(0.79/0.07-1)。在数据集样本数达到2458284、属性达到68维且不进行主成分分析处理(PCA)时,K-means聚类时间提高984%。
- 单位