基于相关熵的快速聚类算法

作者:李中衡; 杨奔; 张劲节; 刘银川; 张雪涛; 王飞*
来源:西安交通大学学报, 2021, 55(06): 121-130.

摘要

针对目前大规模真实数据聚类中存在的效率低和鲁棒性差的问题,提出了一种基于相关熵的快速聚类算法(FCC)。该算法主要分为以下两步:首先对原始数据进行k均值操作,得到粗略的样本类别,作为第二步的标签矩阵;其次利用原始数据与其锚点构建的锚点图对应的拉普拉斯矩阵作为图约束来探寻数据间的内在结构,从而得到样本的最终类别。整个聚类过程在相关熵准则而不是传统的欧氏距离框架下进行,可有效抑制真实数据中大量存在的非线性和非高斯分布的噪声对聚类鲁棒性的影响。为了验证提出算法的性能,使用5种典型的算法作为对比算法与提出的算法一起在4个大规模真实数据集上运行,结果表明,提出的算法可在大部分情况下提高聚类精度,在WebKB、TDT2和Cora数据集上分别提高8.58%,6.86%和1.86%,同时提高聚类效率几倍甚至几十倍;为了验证本算法的鲁棒性,分别加入不同程度的随机噪声和泊松噪声到WebKB和Cora上,得到8个含噪数据集,所有算法均在相同条件下运行于这些噪声数据集上,结果表明,相对于其他对比算法,提出的算法能够保持最优的聚类鲁棒性。