摘要

【目的】充分利用源领域标注语料和可重用的字嵌入预训练模型,解决目标领域标注语料稀缺的命名实体识别问题。【方法】选择以肺癌和肝癌为主题的患者在线问诊文本作为实验数据,提出一种结合实例迁移和模型迁移的KNN-BERT-BiLSTM-CRF框架,对仅有少量标注的肝癌患者提问文本进行跨领域命名实体识别。【结果】当实例迁移的k值设置为3时, KNN-BERT-BiLSTM-CRF模型的实体识别效果最优, F值为96.10%,相对无实例迁移提高了1.98%。【局限】该方法针对其他差异度较大的目标领域,如不同数据源或病种的实体识别迁移效果还有待验证。【结论】当目标领域标注语料有限时,可借助大型预训练模型的先验知识和领域外标注语料,使用跨领域迁移学习方法,提高命名实体识别的性能。