摘要

中文分词是作战文书中语义理解的基本任务。在中文分词的研究中,未登录词识别始终是一个难题。论文通过了一种可扩展外部知识的中文分词模型来提高未登录词的召回率。分词模型以基于序列标注的深度网络模型为骨架,使用双路注意力机制融入外部知识。外部知识是词范畴信息,是一种上下文信息,有助于识别未登录词。双路注意力机制使用自注意力机制编码词范畴信息。在构建的语料集上进行实验,试验结果表明,相对于基线方法,论文实现的分词模型能有效提升作战文书中文分词的准确率以及未登录词的召回率。