摘要

社交网络下的热点话题发现技术是当前舆情分析与预测的基础性研究问题。传统的基于聚类、分类的文本分析方法不适用于网络舆情挖掘,经典的PageRank算法仅考虑网页间的链接结构,为了更加准确和全面地多角度综合评价舆情热点,文中综合考虑用户社会地位、博文相似度指数和热度指数三个热点发现的重要指标,提出了基于PageRank和相似度计算的热点发现混合算法(HDH-PRSC)。其中基于PageRank算法与微博用户粉丝间的链接结构图获取用户的社会地位值;结合TF-IDF算法与余弦相似性算法计算博文的相似度指数;利用转发数、评论数和点赞数获得博文的热度指数。博文的最终热度评分由用户社会地位值、博文相似度指数和热度指数三项分值相加获得。依托新浪微博数据的实验表明,HDH-PRSC算法能够更为合理地发现热点话题。

  • 单位
    三江学院