基于语义相似度的ICD-10编码归一化

谢雨杉; 王利亚; 李莘; 邱航; 杨昊<sup>*</sup>

摘要

国内各医疗机构在国际ICD-10 4位编码的基础上,根据自身需求进行的编码扩展造成了机构之间病案编码在4位之后的不一致。这种人为造成的信息孤岛,限制了以编码为基础的医疗数据的共享共认及以大数据和机器学习为基础的研究方法在医疗数据上应用,因此提出基于语义相似度的ICD-10的6位编码归一化框架。首先以国家最新颁布的《GB/T 14396-2016疾病分类与代码》为标准建立标准库,然后通过数据清洗、多词映射、三级匹配、编码转换等步骤实现了不同医疗机构ICD-10的6位编码的统一,为病案数据的共享共认、区域统计分析以及大数据分析提供基础。

单位
电子科技大学; 成都信息工程大学

收藏分享被引浏览

更新时间：2024-04-23 20:29

基于语义相似度的ICD-10编码归一化

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友