摘要

传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。