摘要
命名实体识别任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称。中文命名实体识别是一个自然语言 (Natural language processing, NLP) 领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色。与英语NER相比,中文命名实体难度更大。这主要是因为在中文文本相关实体边界难以确定和中文语法结构复杂。由于单词序列信息可以给基于字符的序列学习提高更多边界信息,所以为了显式的利用每个字符所相关的词汇信息,过去的一些工作提出通过词-字符晶结构将单词信息整合到字符序列中。这些在中文NER 任务上基于神经网络的单词-字符晶格结构的性能要明显优于基于单词或基于字符的方法。在本文中,我们全面回顾了现有的基于神经网络的单词-字符晶格结构的中文NER模型。我们首先介绍了中文NER的研究难点及挑战。接下来,我们调研了在不同神经网络架构下(RNN、CNN、GNN和Transforme)最具代表性的晶格结构的中文NER模型。最后,我们介绍了中文NER的数据集及评价标准。
- 单位