摘要

[目的]对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。[方法]基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命名实体识别任务发布的基准语料,对比分析神经网络模型的符号表示层和上下文编码层采用不同神经模块时的性能差异。然后以此为基础,分别构建将多神经网络模块集成、并联、串联的实体识别模型,比较和分析其性能差异。[结果]符号表示层使用hfl/chinese-macbert-base、hfl/chinese-roberta-wwm-ext、hfl/chinese-bert-wwm-ext等预训练语言模型能显著提高识别性能;在上下文编码层串联神经网络模块能够提高识别性能;基于集成的神经网络具有最低的优化成本,实现了最佳的性能。[局限]本文实验仅基于中文医学文本语料,因而所得结论有待在其他语言的语料上进行验证。[结论]基础神经网络模块的类型和多神经网络模块的协同方式显著影响神经网络在中文医学文本命名实体识别任务上的表现。