摘要

目前随着新浪微博的普及,很多相关的研究由此展开。使用模拟登录新浪微博的方法爬取7万多用户的200多万条微博。根据用户的互动情况使用熵力模型绘制社交网络图,发现用户的互动特点。根据每位用户的微博内容,从词出发,使用TF-IDF算法计算出词权值,使用K-means算法进行聚类,找出具有不同特点的群体,分析每个群体的关键词。实验结果表明,所提出的方法能够有效挖掘用户群体。