摘要

常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之间联系,并将词嵌入的主题特性应用于主题建模的研究.先分析了主题一致性和常见词嵌入的联系,Softmax函数生成的主题-词项分布的特性;然后提出主题分布式假设,并引入SkipGram结构描述中心词的主题和相邻词之间的关联,从而充分使用词嵌入向量相似、关联特点挖掘文本主题.在3种公开数据集上的实验表明,该模型方法比较现有神经网络结构的主题模型,在主题一致性、主题词的专有性方面都有显著提高;同时模型的主题嵌入向量和主题代表词嵌入向量间具有很强的相似或关联特性.