摘要

传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析,以扩展模型的生成过程。在ToT模型的基础上引入原始文档的标签属性,构建改进模型并使用吉布斯采样算法估计其参数。实验结果表明,与ToT模型相比,该模型具有较高的泛化能力。

全文