摘要

针对微博短文本具有时效性和建模中频词缺失的问题,提出一种遗忘曲线和BTM词频双层加权微博用户画像方法。通过计算词条的时间权重和提高中频词的词频权重,获取双层加权的用户兴趣主题词。利用遗忘曲线拟合时间函数,计算微博词条的时间权重;将重新计算的词频特征作为Gibbs采样的随机值,提出一种改进的词频加权BTM主题模型,提高中频词的词频权重;提出一种微博用户行为影响力计算方法,构建热点话题下的用户画像。实验结果表明,该方法与BTM、SL-LDA、LDA方法相比,在不同时间片PMI-score指标性能均最优,能够准确挖掘不同时间片的各主题词,构建热点话题下用户兴趣主题词词云,准确展示热点话题下的用户兴趣。

全文