摘要

为了解决在中文电子病历命名实体识别任务中,基于字符粒度NER方法对序列信息遗漏的问题,以及引入外部词典资源方法所带来的运算效率问题,提出一种基于SoftLexicon的医疗实体识别模型。首先,将输入序列中的每个字符映射到一个稠密向量中;接下来,引入外部词典资源,为每个字符构造SoftLexicon特征,并将其添加到对应的字向量表示中;然后,将这些增强的字符表示放入Bi-LSTM和CRF层,以获得最终的识别结果。该模型既能有效捕捉句子序列中字符的特征,提取上下文之间的依赖关系,又能实现标签预测的顺序性。以CCKS-2020医疗命名实体识别评测任务提供的电子病历数据作为实验数据集,实验结果表明,与基于字符粒度的传统NER方法相比,所提方法在实体识别性能和效率上都显著提高。