结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究

张亚迪; 孙悦; 刘锋; 朱二周

摘要

聚类是一种经典的数据挖掘技术，它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用。通过聚类分析，目标数据集的深层次结构可以被有效地发掘出来。作为一种常用的划分聚类算法，K-means具有实现简单、能够处理大型数据等优点。然而，受收敛规则的影响，K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题。提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans。该算法采用数据对象的密度参数来逐步确定初始类簇中心，使用中心替换方法更新偏离实际位置的初始中心，因而比传统聚的类算法更加精确。为了获得最佳聚类效果，文中同时提出了一个能够对聚类结果进行有效评价的新聚类有效性指标SCVI和一个能够快速获得目标数据集最佳类簇数的新算法OCNS。实验结果表明，提出的聚类方法对各种类型的数据集都是有效的。

单位
安徽大学

收藏分享被引浏览

更新时间：2021-11-09 14:38

结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友