一种基于新词发现的跨领域中文分词系统及方法

作者:张军; 李学; 宁更新; 杨萃; 冯义志; 余华; 陈芳炯; 季飞
来源:2021-04-26, 中国, CN202110463683.4.

摘要

本发明公开了一种基于新词发现的跨领域中文分词系统及方法,该系统包括:新词发现模块,使用结合统计信息和语义信息的增强互信息来实现新词发现算法,用于从无标注的语料中挖掘新词词表;自动标注模块,使用新词词表结合逆向最大匹配算法实现对无标注语料的初始切分,得到切分不完全的语料,使用分词模型对切分不完全的语料进行完全切分,得到自动标注的语料;跨领域分词模块,使用对抗式方法实现跨领域中文分词算法,并使用有标注的源领域语料和自动标注的语料进行对抗式训练。本发明使用增强互信息优化了新词发现算法,提升了新词发现的准确率和词表的领域性;在跨领域分词算法中提升了对无标注语料的利用率,优化了分词的召回率和准确率。