摘要
针对微博的文本存在短小、快速、变化等特点,导致热点发现困难的问题,提出了一种基于改进的FIHC聚类和TOPSIS的热点发现方法。首先把知网语义相似度引入FIHC聚类算法score函数的计算,考虑了频繁词之间的语义联系,更准确地生成基于频繁词的初始簇;然后对微博文本重复的初始簇进行消减,再采用SinglePass聚类的思想对消减完的话题簇进一步聚类最终得到热点话题;最后对热点话题采用改进的TOPSIS模型进行排序,更好地获得热点话题的排行。通过与其他文本聚类算法以及热点发现方法对比,该方法热点发现效果好,能够比较全面地反映当前的热点话题。
-
单位福州大学; 集美大学诚毅学院