摘要

[目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法/过程]以深度学习、基于本体的相似度计算及谱聚类算法等大数据和人工智能技术为基础,实现准确、高效、全面的技术演化路径智能识别。构建领域词典和领域本体,根据领域词典抽取专利摘要中的领域术语,根据领域本体中不同术语的最近共同祖先节点的深度,从词语级别计算专利摘要间的语义相似度;利用Sentence-BERT对专利摘要进行向量化表示,计算句子层面的语义相似度;结合两种相似度的计算结果构建相似度矩阵并进行谱聚类,根据谱聚类结果和专利时序特征识别技术演化路径。文章以光刻领域专利数据为例进行实证研究。[结果/结论]实验结果表明,谱聚类得到的技术类别划分结果的准确率、精确率、召回率和F1值的平均值均达到了85%以上,说明文章提出的基于专利文本多粒度深层语义的技术演化路径智能识别方法是有效的,其有助于科研人员、企业决策者和政府决策者探究技术发展历程,研判技术创新方向,推动关键技术研发。