摘要

目的 构建面向疾病风险智能预测研究全生命周期的电子病历数据质量需求模型,为电子病历数据集质量建设和评价体系构建提供参考。方法 以机器学习全生命周期为过程,进行电子病历数据质量需求分析。首先通过文献内容分析,归纳疾病风险智能预测模型构建研究过程各阶段所涉及的主要数据活动;然后根据各阶段所采取的数据活动识别对电子病历数据质量的具体需求;最后对各阶段的具体质量需求进行聚类,形成质量需求维度。结果 构建了一个环形的面向疾病风险智能预测研究过程的电子病历数据质量需求模型。模型内核为数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用7个核心任务阶段;中间为各阶段的主要数据活动;外围为可操作性、完整性、准确性、时效性4个核心质量需求维度。结论 构建的模型能够为真实世界电子病历数据治理和质量建设提供参考,助力其向真实世界证据的转变。

  • 单位
    北京协和医学院; 中国医学科学院