摘要
目的 开发基于机器学习算法的缺血性卒中患者院内复发风险的预测模型,并进行外部验证,为相关研究提供借鉴。方法 开发队列为中国卒中联盟(China Stroke Center Alliance,CSCA)研究队列,将此队列中的缺血性卒中患者按照8∶2随机划分为训练集和内部验证集。验证队列为第3次中国国家卒中登记(the third Chinanational stroke registry,CNSR-Ⅲ)研究队列。基于指南、文献回顾,确定备选预测因子,然后采用拉索(least absolute shrinkage and selection operator,LASSO)回归进行筛选。基于logistic回归模型以及机器学习算法[随机森林模型、极端梯度提升(extreme gradient boosting,XGBoost)、轻量级梯度提升机器学习(light gradient boosting machine,LightGBM)模型]开发缺血性卒中患者院内复发风险预测模型。评价模型区分度(C统计量)和校准度(Brier得分)两方面的指标。结果 CSCA研究队列共纳入1 587 779例缺血性卒中患者,其中院内复发99 085例(6.2%)。CNSR-Ⅲ研究队列共纳入14 146例缺血性卒中患者,其中院内复发623例(4.4%)。LASSO回归选择出年龄、性别、卒中病史、高血压、糖尿病、脂质代谢紊乱、心房颤动、心力衰竭、冠心病、周围血管病、LDL-C、空腹血糖、血清肌酐以及院内抗栓治疗作为缺血性卒中院内复发的预测因子。内部验证中,各模型的区分度均在0.75左右,XGBoost模型的区分度(AUC 0.765,95%CI 0.759~0.770)略高于其他模型,各模型的Brier分数均在0.05左右。外部验证中,所有模型的预测效能均较低(AUC<0.60),各模型的Brier分数均<0.08。结论 在预测因子数量和维度有限的情况下,logistic回归模型和机器学习算法预测缺血性卒中院内复发风险的效能均较低。未来需从预测因子和算法模型上做更多探索。
- 单位