摘要

国内各医疗机构在国际ICD-10 4位编码的基础上,根据自身需求进行的编码扩展造成了机构之间病案编码在4位之后的不一致。这种人为造成的信息孤岛,限制了以编码为基础的医疗数据的共享共认及以大数据和机器学习为基础的研究方法在医疗数据上应用,因此提出基于语义相似度的ICD-10的6位编码归一化框架。首先以国家最新颁布的《GB/T 14396-2016疾病分类与代码》为标准建立标准库,然后通过数据清洗、多词映射、三级匹配、编码转换等步骤实现了不同医疗机构ICD-10的6位编码的统一,为病案数据的共享共认、区域统计分析以及大数据分析提供基础。