基于对偶编码的中文分词算法

作者:张冰怡; 魏博; 陈建成; 魏杰; 饶国政
来源:南京理工大学学报, 2014, 38(04): 526-530.
DOI:10.14177/j.cnki.32-1397n.2014.04.017

摘要

为了提高中文分词算法的切分速度和存储效率,提出一种基于对偶编码的特征匹配算法。由中文分词的字符集和字符相邻关系提取特征值,根据此特征值在中文分词词典中进行快速匹配,基于字符的位置相邻关系提取特征值,支持模糊匹配,因此无需对多字词进行单独匹配,从而有效节省匹配时间。实验仿真表明,该算法可以降低特征存储空间,有效提高中文分词精度和效率。

全文