一种中文分词的预处理技术

作者:陈书雨; 曹集翔*; 姚寒冰
来源:计算机时代, 2023, (05): 123-126.
DOI:10.16644/j.cnki.cn33-1094/tp.2023.05.027

摘要

分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字。设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配。当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间。通过实验证明此技术能提高中文分词的效率。

全文