摘要
目的 构建基于自然语言处理的非小细胞肺癌(NSCLC)知识图谱,以弥补传统医学知识在数据挖掘和疾病分析方面的不足。方法 以真实电子病历为数据源,采用命名实体识别方法,对随机抽取的400份NSCLC电子病历进行人工标注。结果 获取的准确率、召回率、F1值均在0.8以上,表明所建语料库是可靠的;并抽取出7类医学实体和2万余条实体关系。通过图数据库Neo4j,对IA期患者的症状表现、治疗前评估进行了客观展示。结论 所构建的知识图谱具有可靠性,可为医生快速确定疾病种类和治疗方法提供参考。
- 单位