摘要

中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据稀疏问题,从而逐渐成为中文命名实体识别方法的主流。回顾了命名实体识别的发展进程和CNER的特殊性和难点;围绕着中文命名实体识别的不同处理特点,将基于深度学习的中文命名实体识别的方法分类为扁平实体边界问题、中文嵌套命名实体识别和CNER小样本问题处理三个领域,并具体阐述这三类领域的模型、细分领域和最近的研究进展并整理了部分典型深度学习方法在相关数据集上的实验结果;再次总结了中文命名实体识别任务的常用数据集和评估方法;指出了当前中文命名实体识别技术面临的挑战和未来的研究方向。