基于延迟决策和斜率的新词识别方法

作者:郭伟; 陈蓉; 周伟; 熊伟; 于中华
来源:四川大学学报(自然科学版), 2007, 44(03): 517-520.
DOI:10.3969/j.issn.0490-6756.2007.03.014

摘要

采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中遇到无法切分字串时,暂存为未切分串,并生成统计信息.待未切分串达到一定数量时,再利用生成的统计信息结合斜率(加速度)的方法来切分暂存的未切分串.切分的结果可以进入索引,对于出现频率高的切分片段可以提取加入词典.

全文