摘要

生物医学命名实体识别是自然语言处理中的一项关键任务,针对在生物医学领域中命名实体数据标注成本高、难以获取大量有标签数据的问题,本文提出了一个两阶段学习框架来实现低资源下的中文生物医学命名实体识别。在第一阶段,利用Word2Vec和BERT为基础模型预训练并进行微调,获得特定领域的词向量表示;在第二阶段,将生成的词向量输入到由BiLSTM和CRF组成的神经网络中用于最终任务的训练。本文在Yidu-S4k数据集进行实验,结果表明本文算法在少量标签的情况下取得80.94%的准确率,具有较优性能。

全文