摘要
【目的】探究古籍方志物产资料中物产别名、人物、产地及引书等4种实体的自动识别,用于方志物产知识库的构建。【方法】以机构特藏《方志物产》云南卷为基础语料,在文本预处理与语料标注基础上,采用4种深度学习模型Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT进行实验,并对实验结果进行对比分析。【结果】Bi-LSTM-CRF模型与Bi-LSTM模型相比,P值提高5.54%,F值提高3.51%;BERT模型的R值达到了83.36%,优于其他模型;Bi-LSTM-CRF模型对引书实体识别效果最好,F值为89.71%;BERT模型对人物实体识别效果最好,F值为87.90%。【局限】由于古籍方志文本语料特性,以及相关实体的认定需掌握领域知识,在人工标注过程中或存在一些漏标与错标的情况,导致模型未能最优化。【结论】研究表明深度学习方法对古籍方志文本实体识别任务的可行性与优越性。
- 单位