摘要

【目的】对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。【方法】基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命名实体识别任务发布的基准语料,对比分析神经网络模型的符号表示层和上下文编码层采用不同神经网络模块时的性能差异。以此为基础,分别构建将多神经网络模块集成、并联、串联的实体识别模型,比较并分析其性能差异。【结果】符号表示层使用hfl/chinese-macbert-base、hfl/chinese-roberta-wwm-ext、hfl/chinese-bert-wwm-ext等预训练语言模型能显著提高识别性能,平均F1值分别达到0.881 6、0.881 6、0.881 2;在上下文编码层融合神经网络模块能够提高识别性能。其中,基于集成的神经网络性能最优,F1值分别达到0.933 0、0.821 1、0.918 1。【局限】实验仅基于中文医学文本语料,所得结论有待在其他语种的语料上进行验证。【结论】基础神经网络模块的类型和多神经网络模块的协同方式显著影响神经网络在中文医学文本命名实体识别任务上的表现。