摘要
社交媒体平台的热门榜单作为热点信息的汇聚和展示,对于我们理解当前热点话题具有很大的启示.但由于热榜文本存在词汇稀疏和文本较短的问题,传统LDA和基于神经网络的主题挖掘模型面临着主题聚合表现不佳的表现.对此,文章提出了一个基于大型语言模型增强的主题建模框架——STAB.该框架结合大语言模型对文本数据的生成式增强能力,以及文档嵌入在主题建模中的优异表现,能够在短文本数据集上挖掘出有意义的主题.在多个数据集上的实验结果表明,在通用客观评价指标和下游任务应用方面,该框架均优于已有的主题建模方法.
- 单位