摘要

针对传统K均值算法无法精确预设初始聚类中心数目的问题,提出基于加权二分图的K均值最佳聚类数确定算法。设计等比例随机采样的方式,从原始大数据集中产生小数据集集合并从中产生聚类中心点点集,提高应对大规模数据集的能力;用聚类中心点点集形成二分图,针对聚类算法特性改进其赋权函数;设计评价数,改进Kuhn-Munkres算法,将其用于求取二分图的最大权完美匹配,确定最佳聚类数。实验结果表明,相较其它6种对比算法,所提算法有更高的准确性,更好的稳定性,以及更强的处理大规模数据集能力。

全文