摘要

基于统计的分词方法在中文分词领域能取得较好的分词效果,利用条件随机场进行中文分词时能够充分考虑每个词状态前、后的各种不同状态,更加符合实际应用。但是通过已有的标注语料训练得到的模型,应用于具有专有名词的分词场合时,专有名词会被不合理的分为不同的单词,进而影响分词的准确度。基于专有名词被错误分开,考虑在条件随机场的基础上,通过人工添加一个或多个专有名词的形式,使专有名词以单字成词的形式存在,确保专有名词在分词过程中被视为完整的词,不会被错误分开,提高带有专有名词的文本进行分词时的准确率。