摘要

专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低。为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法。第一阶段基于Sentence-BERT进行语义编码,然后基于近似最近邻算法进行语义匹配,能够从海量专利文献库中快速匹配到语义相似的专利。第二阶段以BERT为基础模型,基于交叉编码器(Cross-Encoder)捕获专利文本之间更细粒度的语义相关性,对第一阶段的候选专利集进行重新排序。此外,该文还提出了难负例(hard negative)采样和白化转换(whitening)两种简单有效的模型训练优化策略,使模型从简单的训练数据逐渐过度到复杂的训练数据,提高模型区分相似专利的能力。实验表明,该文提出的方法相比于主流的方法在检出率上均有提升,且相比市面上现有的检索系统同样具有优势。