摘要

作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果。针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型。模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提取特征,与辅助任务抽取的特征融合后进行分词。辅助任务使用字根向量表示文本,通过浅层卷积提取特征,进行序列标注。借助损失函数利用辅助任务对主任务进行纠正,协助主任务实现中文分词。在BakeOff2005语料库的四个数据集以及两个小型法律文书数据集上进行实验,实验表明该文提出的分词模型在多数大型数据集上实验效果达到最优,并且在小型法律数据集上F1值最高达到97.90%。