摘要

K-means是一种迭代的聚类分析。当前聚类分析技术正在蓬勃发展,广泛应用于数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已成为数据挖掘研究领域中一个非常活跃的研究课题。基于此,笔者综合K-means算法简单、效率高、收敛速度快、可扩展性好等特点,通过区域密度法确定k值个数从而解决K-means初期k值选择的难题和初期聚类选择时的随机性使算法陷入局部最优的局面。因为给定初始中心,大大提高了算法的效率和速度,使算法得到了进一步优化。实际证明笔者所提出的算法具有良好的效果。