摘要

以特色馆藏文献《方志物产》为研究语料,基于人工标注语料,运用Bi-LSTM、Bi-LSTM-CRF、BERT、Siku-BERT等4种深度学习模型开展实验,以精确率P、召回率R、调和平均数F作为测试指标,对模型的识别性能进行对比分析,促进物产知识的挖掘和利用。实验结果显示:相较于基于CRF的模型,4种深度学习模型的整体性能取得明显提升;Bi-LSTM、Bi-LSTM-CRF、BERT、Siku-BERT的最好R值分别为74.80%、78.05%、88.62%、89.74%;BERT、Siku-BERT注意力机制类深度学习模型的识别效果优于Bi-LSTM、Bi-LSTM-CRF循环类深度学习模型。由于方志类古籍文本结构复杂多样、人工标注精度存在误差、语料规模较小等因素,自动识别模型的实体抽取性能仍有较大的优化空间,但深度学习模型在方志类古籍的内容挖掘中表现出一定的优越性,且不同语料间预训练模型的迁移应用具有可行性。