摘要

在生物医学临床病历文本的命名实体识别任务中,传统的解决方案由于对实体的边界划分不够精确,影响了部分复合实体的识别。通过研究复合实体的特性,提出一种集成的卷积神经网络(E-CNN)模型与双向长短期记忆网络(BLSTM)和条件随机场(CRF)结合的模型,通过对CNN中的卷积层设定不同卷积窗口的大小,来捕获多个词语之间更丰富的边界特征信息。然后将集成的特征信息传递给BLSTM模型进行训练,最后由CRF模型得到最终的序列标注。实验结果表明,该方法针对临床病历文本中的复合实体识别具有良好的效果。

全文