摘要
中文电子病历文本包含大量嵌套实体、句子语法结构复杂、句式偏短.为有效识别其医疗实体,提出一种融合多特征嵌入与注意力机制的命名实体识别算法,在输入表示层融合字符、单词、字形三个粒度的特征,并在双向长短期记忆网络的隐含层引入注意力机制,使算法在捕获特征时更加关注于医疗实体相关的字符,最终实现对中文电子病历中疾病、身体部位、症状、药物、操作五类实体的最优标注.面向开源和自建糖尿病数据集的实验结果中所提算法的实体识别准确率、召回率和F1值都达到97%以上,表明其可以更加有效地识别中文电子病历中各类实体.
- 单位