摘要

针对传统K-means算法初始聚类中心随机选择以及聚类数目不确定的问题,提出了基于文本相似度的改进方法。通过计算获得每个文本的平均相似度,选取平均相似度大于阈值的文本为聚类中心候选文本。将平均相似度最大的文本作为第一个聚类中心,再从聚类中心候选文本中选取彼此之间相似度最小的文本作为下一个聚类中心。每选择一个聚类中心,从原始文本中选择与其相似度大于阈值的文本加入删除文本集。最终,获得初始聚类中心和聚类簇数。通过爬取新浪微博数据进行实验,采用改进的K-means算法进行聚类分析,微博文本可以正确分类,聚类K值与实际一致,并且F1值高于传统K-means算法。

  • 单位
    南京理工大学紫金学院