摘要

该文探讨了在脑卒中疾病中文电子病历文本中实体及实体间关系的标注问题,提出了适用于脑卒中疾病电子病历文本的实体及实体关系标注体系和规范。在标注体系和规范的指导下,进行了多轮的人工标注及校正工作,完成了158万余字的脑卒中电子病历文本实体及实体关系的标注工作。构建了脑卒中电子病历实体及实体关系标注语料库(Stroke Electronic Medical Record entity and entity related Corpus, SEMRC)。该文所构建的语料库共包含命名实体10 594个,实体关系14 457个。实体名标注一致率达到85.16%,实体关系标注一致率达到94.16%。

  • 单位
    鹏城实验室

全文