摘要
常见的K-Means簇中心初始化算法在数据量较大的时候表现不佳。为改进簇中心初始化过程,借鉴网格聚类与密度峰值的思想,将数据空间划分为网格,通过数据的分布情况选定高密度网格的中心作为初始簇中心。这种方法保证簇中心位于数据分布的高密度位置且不会过于集中,使K-Means算法可以在处理大规模数据时,快速有效实现簇中心的初始化。基于燃气公司提供的数据设计实验,相比需要频繁计算距离的簇中心初始化算法,改进算法的初始化速度有显著加快,验证了其有效性。
-
单位上海计算机软件技术开发中心; 华东理工大学