摘要

针对现有主题挖掘方法的不足,本文提出一种以句子为粒度的微博主题挖掘方法。首先,以标点符号为依据进行微博文本的句子划分,选择名词和动词为特征词来表征句子;其次,以高频特征词在微博文本集中的共现频次为基础构建词语相似矩阵,辅助计算句子相似度,构建句子相似矩阵;然后,以句子相似矩阵为基础进行聚类分析,通过分析聚类结果实现主题发现;最后,利用改进的LexRank算法计算各主题句子的重要度值,组合重要度值高的句子生成主题摘要,以完成对主题的描述。文章通过实验证明了该方法的可行性。