摘要

大多数集成聚类算法使用K-means算法生成基聚类,得到的基聚类效果不太理想。通常在使用共协矩阵对基聚类进行集成时,忽视了基聚类多样性的不同,平等地对待基聚类,且以样本为操作单元生成共协矩阵。当样本数目或集成规模较大时,计算负担显著增加。针对上述问题,提出超簇加权的集成聚类算法(ECWSC)。该算法使用随机选点与K-means选点相结合来获取地标点,对地标点使用谱聚类算法得到其聚类结果,再将样本点映射到与之最近邻的地标点上生成基聚类。在此基础上,以信息熵为依据计算基聚类的不确定性,并对基聚类赋予相应权重,使用加权的方式得到加权超簇的共协矩阵,对共协矩阵使用层次聚类算法得到集成结果。选取7个真实数据集和4个人工数据集作为实验数据集,从准确度、鲁棒性和时间复杂度方面进行验证。对比实验结果表明,该算法能够有效提升集成聚类的性能。