摘要

命名实体识别是自然语言处理中的一项基础性关键任务。针对汉译藏传佛教典籍中各种神灵名称难以识别的问题,提出一种基于BERT预训练语言模型、双向长短时记忆网络(BiLSTM)和条件随机场(CRF)的多神经网络融合方法 BERT-BiLSTM-CRF-a。该方法使用BERT代替浅层网络训练字向量,充分表征字的多义性;引入注意力机制的权重思想将BiLSTM层的前向和后向隐层向量加权后再拼接,进一步提高了上下文特征的有效利用率;最后使用CRF模型输出序列上的最优标注结果。实验表明,该方法在测试集上准确率达95.2%,较传统的BiLSTM-CRF模型提升7.6%,召回率也高出8.7%,因此能够应用于汉译藏传佛教典籍中神灵名称识别任务。

全文