基于聚类算法的客户细分及其优化

作者:史海洋; 虞慧群*; 范贵生
来源:计算机工程与设计, 2019, 40(11): 3282-3287.
DOI:10.16208/j.issn1000-7024.2019.11.037

摘要

常见的K-Means簇中心初始化算法在数据量较大的时候表现不佳。为改进簇中心初始化过程,借鉴网格聚类与密度峰值的思想,将数据空间划分为网格,通过数据的分布情况选定高密度网格的中心作为初始簇中心。这种方法保证簇中心位于数据分布的高密度位置且不会过于集中,使K-Means算法可以在处理大规模数据时,快速有效实现簇中心的初始化。基于燃气公司提供的数据设计实验,相比需要频繁计算距离的簇中心初始化算法,改进算法的初始化速度有显著加快,验证了其有效性。

全文