摘要

以新浪微博平台为研究对象,利用Python语言和Web自动化工具通过平台提供的应用接口实现自动认证和微博数据的自动抓取,将其转换成需要的数据格式之后,运用深度优先搜索算法进行分析,获得用户的关系并可视化。此外,采用改进的K-means算法进行主题聚类,实验结果表明,改进后的算法更加准确有效。最后,根据用户信息生成兴趣相关性矩阵,采用改进后的K-means算法分析微博用户关注兴趣的相似性。