命名实体识别技术在“数字敦煌”中的应用研究

作者:巩一璞; 王小伟; 王济民; 王顺仁
来源:敦煌研究, 2022, (02): 149-158.
DOI:10.13584/j.cnki.issn1000-4106.2022.02.002

摘要

命名实体识别是自然语言处理基础任务之一。针对“数字敦煌”项目应用命名实体识别技术存在的实体边界难以确定等问题,通过构建小规模敦煌石窟专有名词数据集,对基于BERT-Bi LSTM-CRF的命名实体识别基本方法,和基于Multi-digraph的词汇增强方法进行了实验对比,结果表明基本方法已具备较高的识别准确率,而基于词汇增强的方法对未登录词识别效果提升显著。最后将训练得到的模型应用于“数字敦煌”资源库命名实体识别任务,证明了方法的有效性。