摘要

伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型。实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题。

全文