摘要
聚类分析是数据挖掘与分析最重要的方法之一.它把相似的数据对象归类到一个簇,把不同的数据对象尽可能分到不同的簇.其中k-means聚类算法,由于其简单性和高效性,被广泛运用于解决各种现实问题,例如文本演化分析、图像聚类、社区发现等.然而在聚类过程中,大部分现有的类k-means算法主要考虑簇内距离,而忽略了簇间距离的作用.本文结合特征加权方法,提出了一种新的集成簇内和簇间距离的加权k-means方法(a weighting k-means clustering approach by integrating Intra-Cluster and Inter-Cluster distances,KICIC)来解决高维数据聚类问题.虽然现有少数类k-means算法通过最大化簇中心与全局中心距离来融入簇间信息,但不同于这类方法,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间距离进行聚类.基于此思路,本文首先为KICIC算法设计了一个目标函数,然后通过优化求解目标函数得到算法参数的更新迭代公式,并在此基础上设计了KICIC算法.最后,在6个真实数据集上的实验结果表明,对比现有类k-means算法,KICIC算法在大部分情况下都有获得更好的聚类结果.
- 单位