摘要

命名实体识别任务是信息抽取的基础,其旨在从非结构化文本中识别命名实体。目前,主流方法均针对英文设计,直接应用于中文文本时存在着一些障碍。针对中文字符的字形信息抽取问题,介绍从视觉角度和部首组成角度入手的两种思路。针对中文文本的单词边界问题,介绍整合词汇信息的两种模型架构。针对中文标注数据集稀缺问题,介绍利用不同任务、不同域的数据集的方法。