基于加权密度Canopy的K-means文本聚类

作者:宋健; 李岩芳; 陈占芳*
来源:中南民族大学学报(自然科学版), 2023, 42(05): 636-642.
DOI:10.20056/j.cnki.ZNMDZK.20230508

摘要

针对现有文本聚类性能不高的问题,提出了一种改进质心初始化的K-means文本聚类算法.该算法首先利用Canopy算法进行文本预聚类,并且对Canopy算法的阈值选取策略进行改进,定义加权密度进行Canopy中心的选取,得到更准确的聚类数以及初始聚类中心;然后将所得结果作为K-means算法的初始化参数进行后续迭代聚类,有效解决了传统算法因随机选取初始聚类中心而陷入局部最优解的问题,减少了算法的迭代次数,提高了聚类准确性.实验结果表明:与其他同类型算法相比,该算法在文本聚类分析中更具优势.

全文