摘要

为了降低法律文本中的无关词语对分类的影响和突出法律关键词汇的作用,采用主题模型建立一种基于法律词汇加权的文本分类模型。针对不同类别的法律文本的关键词的不同,在主题模型中提出了按关键词标记词到主题的文本集,并进行权值学习,用权值更新文档到主题的分布,从而提高了文档相似度计算的准确性。通过在Westlaw真实数据集上的计算分析,与传统的主题模型相比,加权的主题模型可以获得较好的困惑度和文本相似度。