摘要

传统kmeans算法采用随机法选择初始聚类中心,易造成聚类结果陷入局部最优解和聚类精度低的问题,而且易受孤立点的影响。为了解决这一问题,提出了一种基于密度标准差优化初始聚类中心的改进算法。该算法先计算数据集样本的平均值和标准差,接着计算每个数据点的密度分布函数值,然后计算样本的平均密度和密度标准差,若小于密度标准差,则划分为孤立点;搜索密度分布函数值数组中的最大值,那么最大值对应的样本点即为初始聚类中心,并将以初始聚类中心为原点,以样本平均值为半径的圆内各点的密度函数值赋值为0,如此重复,直到找到k个初始聚类中心。该算法基于Python语言在PyCharm软件平台实现。实验结果表明,这种基于密度标准差优化初始聚类中心的算法消除了孤立点的影响,具有更高的准确率和更好的聚类结果。

全文