摘要

本发明公开了一种基于词共现网络的主题建模方法,包括步骤:根据给定的语料库或者文本集合构建词共现网络;根据得到的词共现网络构造出一个新的文档集合;将得到的新的文档集合输入到一个标准主题模型LDA的Gibbs sampling算法中,得到新文档集合对应的文档-主题矩阵和主题-词矩阵。本发明不需要依赖任何的外部知识,避免了收集额外知识的精力,仅仅是利用数据集本身包含的信息去改善主题模型的结果。