新能源专利文本术语抽取研究

作者:孙甜; 陈海涛; 吕学强; 游新冬*
来源:小型微型计算机系统, 2022, 43(05): 950-956.
DOI:10.20009/j.cnki.21-1106/TP.2020-1022

摘要

专业术语的自动抽取对于领域机器翻译、领域知识图谱等方面均具有重要作用.近年来,新能源领域专利文本的申请量逐年增加,我国科技文献走向世界有了更高需求,专业术语翻译质量直接影响专利文本的翻译质量.为了提高新能源领域专利文本术语抽取结果的准确率和召回率,构建新能源领域术语库以及提高新能源领域专利文本的翻译质量打下基础.本文提出了基于BERT-BiLSTM-CRF的新能源专利术语抽取方法,以自建的3002条新能源领域专利文本作为实验对象,在中文数据集上的实验结果达到了0.9211的精确率,0.9245的召回率以及0.9228的F1值.与其他经典深度学习术语抽取模型相比,基于BERT-BiLSTM-CRF的新能源专利术语抽取模型能有效地将新能源领域专利文本中字符较多的长序列术语识别出来,提高术语抽取在实际应用中的效果.