摘要

目前中文命名实体识别存在的主要的问题有:实体的边界模糊,实体边界和非实体之间也存在边界模糊问题,并且在小数据集下模型识别效果不明显。为了解决以上问题,通过加强对文本上下文语义特征的提取能力,使模型能够根据上下文语义特征来精准地推测出实体,提出一种BERT_Bi LSTM_CRF的模型,BERT可以根据文本上下文信息,使每个词在文本语义中对应一个低纬的稠密的词向量,Bi LSTM可以捕获时序特征,并且使用CRF来对输出标签的顺序进行约束。经实验表明,使用预训练模型获取的动态词向量比随机初始化的词嵌入有显著提高。

全文