摘要

对含有不重要特征、冗余特征的数据进行聚类,采用特征缩减模糊聚类(feature reduction fuzzy c-means,FRFCM)算法是有效的.该算法使用特征的均值方差比(mean-to-variance ratio, MVR)度量特征的重要性,删除权重小于阈值的特征,仅保留重要特征进行聚类,以提升算法的性能和速度.但该算法存在以下不足:1)数据归一化后,特征的MVR值会发生改变,重要特征的MVR值可能会变小,不重要特征的MVR值可能会变大; 2)一些数据的重要特征,其MVR指标未必大; 3) FRFCM算法特征权重分配依赖于初始化,不恰当的初始化会使算法给出错误的权重分配,使得聚类过程中算法会删除重要特征而保留不重要特征,造成FRFCM算法的聚类结果不正确.对此,首先构造边缘峰度度量(marginal kurtosis measuree, MKM)指标来度量特征的重要性;然后基于该指标提出一种新的、具有鲁棒的特征缩减模糊聚类算法.通过在人工数据集和真实数据集上的验证,表明所提出的算法是有效的.

全文