摘要

命名实体识别是信息抽取和关系提取基础的关键任务。针对中文命名实体识别问题,提出了一种融合ERNIE和改进Transformer的中文命名实体识别深度学习模型——ERIT(combining ERNIE with Improved Transformer)。ERIT使用ERNIE训练词向量作为嵌入层,摆脱了模型对于分词预处理过程的依赖,避免出现因分词错误以及信息缺失引起错误传播而导致准确率降低的情况,在兼顾输入文本识别精度的同时进一步优化输入语句的词向量,利用Transformer获取输入序列的上下文信息并进行特征提取,结合自注意力层对权重参数进行更新,并在此基础上,通过在自注意力层上增加约束正则项提高对参数约束性以提高每个生成标签的准确性,并加入计划采样机制以解决模型训练与测试过程中存在的不匹配问题。实验证明,ERNIE作为嵌入层有效优化了词向量并提高了识别精度,且模型相较于其他实体识别模型取得了较好的效果。