摘要

目的:建立基于深度学习的中国学者身份识别模型,解决生物医学英文文献中因学者名称著录格式多样、机构和科室的英文名称不规范造成的身份难以识别问题。方法:利用学者的单位名称、院系名称、合作关系等关键特征信息,建立深度神经网络模型,将特征信息赋予权值向量,输出数据的权值超过阈值即可判定为完全匹配。结果:当训练次数达到10次以上时,所建立的深度神经网络模型对中国学者身份的准确识别率达到85%以上。结论:深度神经网络模型可以比较精准地智能识别学者身份信息,为机构知识库中数据清洗提供了技术支持。