摘要

利用独立特征子集与连接三元组思想,将多个基聚类结果进行聚合,将显著提高聚类集成结果的准确性.针对特征数目较多的复杂数据集,本文提出了一种基于多链接特征子集的聚类集成算法,根据特征之间的关系,提出独立特征子集的选取算法,将生成的数据子集作为聚类集成算法的输入,使用不同的聚类算法生成多种不同的基聚类结果,然后提出一种能够关联不同属性的集成算法,将多种不同的基聚类结果作为集成算法的输入进行集成,融合不同的结果得到唯一的结果.该算法的优点包括:1)通过对特征子集的选取,消除了重复特征对聚类结果的干扰,有利于充分利用已有特征信息; 2)采用多链接算法融合基聚类结果计算相似度矩阵,可以充分挖掘数据点之间的潜在关系.对不同数据集的实验研究表明,该算法相较于传统的聚类集成算法,可以提高聚类集成结果的准确率.