摘要

命名实体识别是自然语言处理中的重要任务,相比于英文命名实体识别,面向中文的命名实体识别任务往往更具难度。针对中文命名实体识别中词语信息丢失的问题,提出了一种基于Transformer编码器的命名实体识别算法,在模型的字嵌入层中使用结合词典的字向量编码方法,从而让字向量包含了词语信息,同时针对Transformer编码器在注意力运算时会丢失字符的相对位置信息的问题,修改了Transformer编码器的注意力运算方式并引入了相对位置编码,最后引入条件随机场获取最优的标签序列。实验结果表明所提方法模型在两个中文命名实体识别数据集Resume和Weibo数据集上较现有的主流模型具有更好的识别效果。

全文