摘要

周期性话题挖掘是目前数据挖掘领域的研究热点之一,针对当前绝大部分研究只限于时间序列数据库、无法直接应用于文本数据的不足,提出了一种基于划分的周期性话题挖掘方法(PTMP),首先,将话题划分为周期性话题、背景话题和突发性话题,然后,将每个周期性话题的时标分布建模为混合高斯分布,为了缓解背景噪声问题,通过均匀分布生成背景话题的时标,用高斯分布来生成突发话题的时标,然后通过将该混合模型根据时标文本数据进行调整,从而发现周期性话题及其时间分布。最后,收集了包括研讨会、DBLP和Flickr在内的多个代表性数据集,验证方法的有效性。

  • 单位
    四川民族学院