摘要

针对微博文本篇幅短小、网络新词层出不穷等特点以及在话题发展过程中产生的漂移问题,提出了基于双向量模型的自适应微博话题追踪方法.该方法首先提出双向量模型,将文本用词嵌入和VSM向量空间模型两种方法分别向量化,保留文本语义的同时也解决了微博新词问题.其次,将话题和微博分别用双向量模型表示,计算话题双向量模型和微博双向量模型的余弦相似度作为话题与微博的相似度.接着,将话题与微博的相似度与自适应学习获得的相似度阈值进行比较,判定微博是否为话题相关微博.最后,自适应更新话题模型,能够有效地应对微博话题发展所产生的漂移.实验结果表明,该方法能够实时地跟踪话题并降低了话题相关微博的漏检率和误检率.