摘要

利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对推动历史学习、文化自信与文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于Bert-base、RoBERTa、guwenBert、sikuBERT、sikuRoBERTa预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间名等的命名实体识别任务。实验结果表明:sikuBert、sikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能能够产生一定影响;Bert模型更为适应大规模语料任务。实验验证了基于四库全书繁体语料预训练的Bert模型在预训练、微调范式下的典籍命名实体识别的可行性,构建了一个基于sikuBert的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。