基于词向量和变分自动编码器的短文本主题模型

张青; 韩立新<sup>*</sup>; 勾智楠

摘要

为了解决短文本稀疏性问题,提高主题模型的性能,提出了一种词向量嵌入的主题模型。首先,假设一篇文档只包含一个主题;其次,利用词向量对每一轮迭代的主题进行扩充与调整,即对每一个主题,利用一种非参数化的概率采样方法得到一些词,再用词向量找出相似词,提升该主题下相似词的权重;最后,用拉普拉斯近似主题分布,使其更好地运用在变分自动编码器训练中,从而加快训练速度。实验结果表明,本文模型训练出的主题具有较好的解释性,并优于其他主流的模型,可为短文本的主题提取提供更多的可能。在主题模型训练的过程中,利用词向量干预主题词分布可以得到较好的主题质量,并可以通过变分自动编码器加快训练速度,对自然语言处理问题的研究具有一定的创新性和参考价值。

收藏分享被引浏览

更新时间：2024-04-23 17:55

基于词向量和变分自动编码器的短文本主题模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友