摘要

为准确抽取流行病学调查信息中的关键实体,构建了基于COVID-19确诊病例流调信息文本的命名实体语料集;提出了基于BERT预训练语言模型的流行病学调查流调信息的命名实体识别方法。该方法首先通过预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的9个实体类型。为进一步提升实体识别效果,对模型进行改进,继续增加注意力层,实验结果显示,模型识别的F1值在94.23%的基础上又提升了1.16%。

全文