一种基于数据增强的主题建模方法

作者:刘业政; 朱婷婷; 孙见山; 姜元春; 孙春华; 杜非; 熊强
来源:2018-01-15, 中国, ZL201810036105.0.

摘要

本发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题-词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。