摘要
实体识别是信息抽取工作中的一项基础性工作。目前在缺乏足够的标注语料的低资源场景下如何有效识别实体,仍是自然语言处理中的一项挑战性工作。结合预训练模型,采用一种“统一编码-分离解码”解决方案,学习大规模领域实体抽象边界信息,基于迁移学习,将大规模领域实体边界抽象信息迁移到低资源场景,提高低资源场景实体识别精度。与现有方法不同的是,仅在解码前对特征向量进行适配。设计了一种自适应模块对统一编码方式得到的每一特征向量按照目标域的实体类型和标注方式维度进行单独解码,确定每个实体的标注方式,避免复杂的实体嵌套问题。基于公开数据集的实验结果表明:相较于BERT-BiLSTM-CRF基线模型,在医药领域低资源场景下,精确率提高4个百分点,召回率提高5.4个百分点,F1提高4.72个百分点;在人事领域低资源场景下,精确率提高31.91个百分点,召回率提高31.7个百分点,F1提高31.86个百分点。基于自主采集整理数据集的实验结果也表明了模型在低资源场景下进行实体识别的有效性,相较于Lattice-BERT模型,在精确率、召回率等方面有所提高。
- 单位