摘要

为获取科研学术论文中涉及的专家研究领域等专业实体信息,给学术论文或科技项目评审专家的推荐提供理论参考,面向计算机科学领域,提出了一种基于RoBERTa-wwm的实体识别模型对专家学术论文中包含的专业实体进行识别。首先,以已有的专家基本信息数据表为参照,利用中国知网高级检索功能和爬虫技术获取表中列举专家的学术论文摘要数据;接着,将摘要数据经人工标注后,通过RoBERTa-wwm预训练模型获取具有语义特征的字符向量作为下游模型的输入;最后,将上游的语义字符向量输入BiLSTM-CRF模型中实现对文本中的专业实体识别。通过实验验证,提出的模型在自主标注的数据集中取得了更好的效果。其中,模型F1值达到了89.94%,高于实验中的对比模型,具有良好的识别专业实体的能力。