摘要
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对台成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。
-
单位中国科学院大学; 中国科学院成都计算机应用研究所; 中国科学院成都文献情报中心