摘要

针对现有主题模型学习结果语义可解释性差、准确性不高等问题,提出了一种融合关联规则和学术论文元数据的主题学习及表示方法。将学术论文预处理得到目录元数据;利用目录元数据作为先验知识指导主题学习,得到文档中关于主题的词项概率分布;通过加权关联规则挖掘得到各主题的频繁三项集,提出判断主题质量优劣的标准;利用学术论文的元数据,通过改进的向量空间模型算法,合并语义相似的主题;最终得到更符合实际情况且语义可解释性更优的主题语义表示结果。在同一学术论文数据集上,采用三种主题学习及表示方法进行对比实验。实验结果表明,该方法在主题抽取准确度、主题粒度等方面均优于其他方法,充分验证了所提方法的有效性。