摘要
中文分词是中文信息处理领域中的一项关键基础技术,而多粒度分词是中文分词领域较新的研究方向。针对多粒度中文分词任务,该文提出一种基于Lattice-LSTM的多粒度中文分词模型,在传统基于字的多粒度中文分词模型基础上,加入了多分词粒度的词典信息。与传统模型相比,所提出的模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准。实验表明,该文提出的方法在多粒度中文分词方向取得了目前最好的结果。
-
单位北京语言大学