摘要

聚类有效性指标可用来评估聚类结果的有效性,并且帮助判别聚类的类别数。现有的面向模糊C均值算法的聚类有效性指标存在对于类内紧致性的刻画不太到位、对于类间分离性的度量刻画不够准确的问题。为此,基于类内紧致性和类间分离性两个角度着手设计,提出了一种新的模糊聚类有效性指标——考虑最大值和均值的指标(maximum-mean,MAME)。首先,考虑了整个数据集的综合特征,计算分别分为K类和1类的情况的比值,提出了一种新的模糊紧致性度量表达式。其次,引入最大聚类中心距离和平均聚类中心距离,提出了一种新的分离性度量方法。最后,从模糊紧致性度量表达式、分离性度量方法出发,提出了MAME指标。面向5个UCI数据集和6个人工数据集,和9个聚类有效性指标(包括CH、DB、NPC、PE、FSI、XBI、NPE、WLI和I指标)一起进行了对比实验,验证了所提指标的准确性、稳定性,说明了MAME指标的鲁棒性较好。

全文