基于改进LDA的文本子话题发现方法

作者:倪丽萍; 李想; 倪志伟; 朱旭辉; 李应; 夏千姿
来源:2019-02-25, 中国, ZL201910138793.6.

摘要

本发明公开了一种基于改进LDA的文本子话题发现方法,其步骤包括:1、计算文本集合中单词的TF-IDF值,挑选TF-IDF值大于阈值的名词和动词作为下一步加权的特征词;2、基于特征词加权LDA模型发现子话题以及相应的关键词;3、基于TSR方法和KL散度对子话题进行优化;4、利用Word2Vec模型进行子话题关键词扩展,提高子话题关键词语义可理解性;5、构建子话题词向量和标题词向量,利用余弦距离聚类。本发明能在话题区分度和语义可理解性上提高子话题发现效果。