基于LDA模型的网络刊物主题发现与聚类

杨传春; 张冰雪; 李仁德; 郭强<sup>*</sup>

doi:10.13255/j.cnki.jusst.2019.03.010

摘要

随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。

单位
上海理工大学; mpa教育中心

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-10 07:00

基于LDA模型的网络刊物主题发现与聚类

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友