摘要
目的 对基于结构化数据和机器学习方法预测普通人群卒中发病风险的模型表现和预测性能进行系统评价,以有针对性地提高研究质量以及模型的预测性能。方法 系统性回顾4个数据库(PubMed,Web of Science,Scopus和Embase)在2021年6月21日之前关于机器学习预测卒中发病风险的所有研究,并由两位研究者独立进行文献筛选、数据提取及偏倚风险评估。采用MedCalc软件,使用随机效应模型对衡量模型区分度的指标进行meta分析,并根据样本量、预测变量集数量、算法类型、预测时间间隔等进行亚组分析,并进行发表偏倚评估和敏感性分析等。结果 共纳入11项研究,其中,存在高偏倚风险的有3篇,未知偏倚风险的有6篇,低偏倚风险的有2篇。研究的数据来源包括电子健康档案和医疗保险数据库等,研究的中位预测时间间隔为3年;纳入预测变量个数的中位数为26,样本量的中位数为8175,最常应用的机器学习模型包括神经网络、随机森林和支持向量机。meta分析得出总AUC为0.745(95%CI 0.712~0.778,P<0.001),亚组分析结果显示,对于不同样本量、预测变量集数量,AUC差异均有统计学意义(95%CI无重叠),而对于不同的算法类型及预测时间间隔等,AUC差异较小(95%CI有重叠)。漏斗图和统计学检验结果均显示研究存在发表偏倚(P=0.050);敏感性分析结果显示:剔除极端AUC值的模型后,meta分析得出总AUC为0.746(95%CI 0.714~0.777,P<0.001),对极端AUC值不敏感(P<0.001)。结论 采用结构化数据和机器学习方法预测人群中卒中发病风险的效果一般,且相关研究的质量均不高,实际应用时,需要通过针对性的改进提高模型的预测能力。
-
单位公共卫生学院; 北京大学