基于密度优化初始聚类中心的K-means算法

作者:王艳娥; 安健; 梁艳; 康晶晶
来源:计算机技术与发展, 2020, 30(12): 99-105.
DOI:10.3969/j.issn.1673-629X.2020.12.018

摘要

针对K-means算法随机选择初始聚类中心,对噪音和异常点比较敏感,聚类结果过多依赖于专家经验从而缺乏一定客观性的问题,提出一种新的度量样本密度的方法优化K-means算法对初始聚类中心的选择。该方法基于样本实际分布,以最优超球体中样本个数与超球体中样本相似性作为度量样本密度的关键,能够有效选出较优的聚类中心,使得选择的初始聚类中心更接近样本集的实际分布。算法在乳腺癌数据集、常用UCI数据集以及人工模拟数据集上进行测试,实验结果表明,与已有同类方法相比,该算法在各数据集上的聚类评价指标均有提高,而且运行速度更快,聚类结果更稳定,聚类准确率更高:在乳腺癌数据集wdbc上的准确率为91.04%,提高了6%。在Iris数据集上的准确率为94%,提高了5%。

全文