基于多来源文本的中文医学知识图谱的构建

作者:昝红英; 窦华溢*; 贾玉祥; 关同峰; 奥德玛; 张坤丽; 穗志方
来源:郑州大学学报(理学版), 2020, 52(02): 45-51.
DOI:10.13705/j.issn.1671-6841.2019383

摘要

中文医学知识图谱(Chinese medical knowledge graph, CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要。通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%。在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6 310种疾病、19 853种药物(西药、中成药、中草药)、1 237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万。所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础。

全文