摘要

本文对于K均值聚类算法应用在大量微博数据集中聚类效率低,正确性不高的问题,提出了一种改进的K均值微博热点话题发现方法。在对微博特有属性的研究基础上,利用微博转发关系解决微博内容碎片化导致的聚类准确性及效率较低的问题;实验结果表明本文提出的改进的K均值聚类算法比传统的K均值热点话题发现,准确率提升了11.3%,聚类比较次数提升了27.5%。