摘要

近些年,基于神经网络的文本分类器和词嵌入在自然语言处理中被广泛应用。然而,传统的简历解析器采用基于关键字的模糊匹配或正则表达式来进行文本块分割。文中提出了一种基于神经网络文本分类器和词向量的端到端的管道来进行简历解析。新的文本块分割法充分利用了基于简历行的位置信息和每个文本块内信息集成关联的性质。行类别分类器和行标签分类器对简历行的协调分类能有效地将一份简历分割成预定义标签的文本块。该简历解析管道能把上游的文本块分割与下游的具体信息识别结合起来。在具体信息抽取中,各种序列标注分类器在已被分割的文本块中识别命名实体。与4种序列标注分类器的识别性能对比,确立了BLSTM-CNNs-CRF在命名实体识别中的优势。与其他3种已经发表的简历解析器的对比评估,验证了所提文本块分割法的有效性。