摘要

[目的]现有专利相似度计算方法对专利文本区分于其他类型文本的特征利用不足,并一定程度上忽视了专利内容与结构的特性,本文就上述问题提出一个新的专利相似度计算方法。 [方法]通过权利要求层级特征生成技术组合句并进行信息核心度、信息丰富度的加权,兼顾技术内容范围与技术信息重点进行专利表示,在此基础上进行专利相似度计算。通过相关性指标与专利分类的对比实验证明方法合理性。 [结果]对比实验结果显示:本文提出的方法(HSRC)较同类基准方法更充分地表达了专利信息,更适用于专利相似度计算;技术组合句的重构对模型表现提升作用明显,在该基础上的信息核心度、信息丰富度的加权能进一步提高模型表现。 [局限]仅在量子计算领域进行实验,技术领域是否会对方法表现造成影响仍待探究。 [结论]权利要求树与技术组合句的信息组织形式能提高对专利文本利用效率;技术组合句与对应信息特征加权能提升专利表示效果及其在相似度任务中的表现。