基于信息熵加权的聚类集成算法

作者:邵长龙; 孙统风; 丁世飞*
来源:南京大学学报(自然科学), 2021, 57(02): 189-196.
DOI:10.13232/j.cnki.jnju.2021.02.003

摘要

聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异.受到信息熵的启发,提出一种基于信息熵加权的聚类集成算法.算法首先对每个簇的不稳定性进行衡量,然后提出一种基于信息熵的簇评价指标,进而从簇层面进行加权,在对加权矩阵进行划分后得到最终的聚类结果 .该算法有两个主要优点:第一,提出了一个有效的簇评价性指标;第二,从比基聚类层面更细化的簇层面进行加权.一系列的实验证明了该算法的有效性和鲁棒性.

全文