摘要

利用Jieba分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别计算词组凝聚度,利用左右信息熵计算词组自由度,通过设定凝聚度与自由度阈值识别领域词组,利用文中提出的词性约束规则进一步筛选词组,将得到的词组作为自定义词典加入到结巴分词中,再次对文本进行分词。通过在自己构建的金融和法律领域语料库进行实验,证明了所提算法可以有效发现领域词组,利用该算法进行领域分词时,准确率和召回率高于只利用结巴分词的准确率和召回率。最后提出了一种基于区分不同领域的领域自适应分词算法评价方法。实验结果表明,上述算法能够有效区分不同领域,即可以有效实现领域分词。

全文