基于既有医疗数据构建研究型数据库的方法学探讨及实例解读(二):数据治理的方法

作者:赵国桢; 闫世艳; 郭玉红; 宋爽; 胡雅慧; 郭诗琪; 徐霄龙; 叶浩然; 朱泠霏; 杜元; 任志颖; 卢海天; 胡晶; 李博*; 刘清泉*
来源:中国中医药信息杂志, 2023, 30(09): 17-21.
DOI:10.19879/j.cnki.1005-5304.202210065

摘要

真实世界研究可利用临床实际产生的数据,通过科学合理的研究设计及严谨的数据治理工作,形成真实世界证据,与随机对照试验形成互补的关系。数据治理包括数据链接、数据提取、数据核查、数据清理4个步骤。其中,数据链接的核心在于患者识别码的治理,应确定唯一、无重复的患者ID序列,并进行“纵向锁定”;数据提取的核心是同质化操作,可通过背靠背、培训、预提取、格式限定等方法,减少不同操作人员间的差异;数据核查的难点在于选择恰当的核查范围,可采用抽样核查和全面核查相结合的方式,在保证有效核查的前提下减少核查工作量;数据清理的重点在于对核查出的重复数据、矛盾数据、极端值和缺失值等各种问题数据制定恰当的清理规则。本文以“中西医结合治疗新型冠状病毒感染研究型数据库”为例,对研究中数据治理的方法进行介绍,以供研究人员参考。

全文