摘要
本发明公开了一种基于BERT与SemiCRF的中文命名实体识别方法,构建命名实体识别模型,所述方法包括步骤:获取预训练好的BERT模型;对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集;将构建的命名实体识别的训练集数据输入到预训练好的BERT语言模型;将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练;使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别。本发明解决了传统的word2vec无法区分多义词的问题,并通过引入的基于SemiCRF的方法,将传统的CRF方法往往会忽略掉的词级别信息与字级别的信息结合起来,在一定程度上提高了中文命名实体识别的效果。
- 单位