摘要

【目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法,形成加权专利文本主题模型,给不同的词分配不同的权重,改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型,本文提出的加权专利主题模型能够增加主题间的区分度。【局限】加权算法需要更多数据集验证,并不断优化。【结论】通过专利文本数据验证了该方法的可行性与有效性。