摘要

中文分词是自然语言处理的基础任务。随着文本数据量的增长,对中文分词进行研究具有十分重要的意义。jieba分词是较为常用的中文分词技术,分词的准确率较高,面向jieba分词技术研究加快分词速度的方法,该方法采用Cython实现分词技术的核心算法,对中文文本进行分词处理。在ICC中文数据集上进行实验,实验结果表明,该分词加速方法能够提高63.9%的分词速度。