摘要

针对聚类过程中,由于类心选取的随机性导致所选类心偏离数据集,或者类心过于集中而带来的错误聚类这一缺陷,提出一种算法对类心的选取进行两次筛选,即将类心密度过小的以及两两类心之间距离过小的类心分别筛选出来,不让其参与聚类,此后算法对筛选后剩余的类心再进行聚类。为了使算法能较快地得到最优类心,提出了改进的聚类准则函数,对聚类数目进行动态惩罚。为了评估所提算法在聚类问题上的应用性能,选择两种不同类型的数据集进行了仿真实验。与其他三种现有的自动聚类算法的比较结果表明,所提算法能够获得更好的聚类结果,从而验证了算法所提策略的有效性。

全文