摘要

为了弥补K-medoids算法容易引起收敛过程产生局部极小值问题,结合全覆盖粒度方面考虑,设计了一种基于全覆盖粒度K-medoids算法的文本聚类及其综合性能综合评估方法。以全覆盖粒计算作为参考依据,先计算出各文档特征词权重占比。通过Single Pass聚类算法完成样本集的聚类计算,获得粒度重要度指标,对剩余样本进行重新分配获得最近聚类中心,最终确保各对象与类簇中心距离达到一个稳定值。研究结果表明:全覆盖粒方法构建的K-medoids聚类算法可以实现聚类精度的显著提升。

  • 单位
    北京网络职业学院