基于字符树结构的高性能中文词库技术

杨光豹; 杨丰赫; 郑慧锦

doi:10.15888/j.cnki.csa.007052

摘要

海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步.

单位
东南大学; 浙江广播电视大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-11 15:26

基于字符树结构的高性能中文词库技术

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友