摘要

该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对特征建模,基于属性组对特征二元分类得到话题关键特征,将关键特征之间的互信息作为距离度量,改进最近邻聚类方法对关键特征聚类产生话题。微博数据实验表明,该方法有效提高了微博话题检测的准确率和召回率。