摘要
海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步.
-
单位东南大学; 浙江广播电视大学