基于主题模型和词向量融合的微博文本主题聚类研究

颜端武; 梅喜瑞; 杨雄飞; 朱鹏

摘要

[目的/意义]针对微博短文本数据存在的高维稀疏和上下文语义缺失等问题,提出一种融合主题模型和词向量的文本特征表达方式,以期提高微博主题聚类的效果。[方法/过程]以新浪微博为数据源,结合LDA文档—主题分布特征和加权Word2Vec词向量特征构建微博短文本的融合特征,基于K-means算法进行主题聚类,并与单一特征聚类、标准LDA主题模型的实验结果进行对比,根据F1值评估主题聚类方法的优劣。[结果/结论]相较于其他方法,融合特征主题聚类模型表现最佳,其F1值达到83.7%。实验表明,融合特征能够更加全面、准确地描述文本的语义信息,能更有效地表征微博文本。

单位
南京理工大学; 经济管理学院

收藏分享被引浏览

更新时间：2024-04-17 15:25

基于主题模型和词向量融合的微博文本主题聚类研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友