基于预训练模型的文博数据命名实体识别方法

赵卓; 田侃; 张殊; 张晨; 吴涛<sup>*</sup>; 姜丰; 游小琳

摘要

在对文博数据进行知识图谱的构建时，从文本中抽取出有效的三元组尤为重要，因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型，此类方法在对词进行向量化处理时只是将词映射成单一的词向量，并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示，将语义信息充分地结合。因此，针对文博数据提出一种基于BERT的预训练实体识别模型，采用BERT预训练模型进行词嵌入，通过利用双向长短期记忆网络（BiLSTM）模型结合上下文信息来增强词向量的语义信息，然后利用条件随机场（CRF）模型进行解码。与传统长短期记忆（LSTM）网络和BiLSTM-CRF模型相比，该模型在微软公开数据集（MSRA）以及自行标注文博知识数据集上表现突出，在文博知识数据集中，模型的准确率达到93.57%，召回率达到75.00%,F1值达到73.58%。

单位
重庆中国三峡博物馆; 重庆邮电大学

收藏分享被引浏览

更新时间：2024-03-20 11:07

基于预训练模型的文博数据命名实体识别方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友