基于分组hash与变长匹配的中文分词技术

作者:杨光豹; 杨丰赫*; 毛贵军
来源:计算机时代, 2019, (04): 52-55.
DOI:10.16644/j.cnki.cn33-1094/tp.2019.04.014

摘要

中文分词是海量中文信息处理的基础任务,分词的准确性与分词速度是最为重要的。但是现有技术在分词时,准确性与分词速度却是无法调和的。为了提高中文分词的速度,同时又不因缩短初始字符串长度造成准确性降低,提出使用正则表达式进行变长字符串的截取与对词库进行分组散列的技术。通过理论分析,该技术在时间复杂度上从原来的o(n*n)下降到o(n),在精确度上又以句子长度作为动态变化的初始字符串长度,从而避免长词的丢失,保证了分词的准确性不受损失。

  • 单位
    浙江广播电视大学