摘要
【目的】合理、有效、准确地划分技术主题具有重要意义,本文旨在融合专利的多个属性改善技术主题划分效果。【方法】分别基于专利的文本内容、引用关系和分类信息构建专利文本向量、专利引文向量和专利分类向量,综合三者得到基于多属性融合的专利向量,在此基础上通过专利聚类获得技术主题。【结果】与基于一个或两个属性的专利向量表示方法相比,基于专利多属性融合的方法在不同层级的IPC分类和不同数量的样本集上均表现出更高的专利分类准确率、召回率和F1值,对专利相似度的测度更加准确,间接证明了基于专利多属性融合的技术主题划分方法更具优势。【局限】利用专利自动分类实验而非直接方法评价技术主题划分效果。【结论】基于专利多属性融合的技术主题划分方法能够综合专利不同属性对技术主题的表征能力,提高专利相似性测度和技术主题划分的准确性。
-
单位中国科学院大学; 中国科学院文献情报中心