一种基于特征迁移的跨领域中文分词模型

作者:张韬政; 张家健
来源:中国传媒大学学报(自然科学版), 2021, 28(03): 41-74.
DOI:10.16196/j.cnki.issn.1673-4793.2021.03.006

摘要

中文分词是自然语言处理的常见任务之一。在跨领域分词任务中,目标领域的数据分布不同及数据量不足通常导致分词效果急剧下降。基于该问题,本文通过引入了迁移学习、对抗学习和正交约束以减轻共享和私有特征之间的干扰,提出了一种基于特征迁移的跨领域中文分词模型,能够在跨领域和小数据量条件下,借鉴数据量较大的源领域的知识来进行学习,实验证明该模型最终获得了出色的表现。

  • 单位
    中国传媒大学

全文