摘要
目的基于极端梯度提升(XGBoost)算法建立重症急性胰腺炎(SAP)早期预测机器学习模型, 并探讨其预测效能。方法采用回顾性队列研究方法, 选择2020年1月1日至2021年12月31日苏州大学附属第一医院、苏州大学附属第二医院及苏州大学附属常熟医院收治的急性胰腺炎(AP)患者, 根据病历系统与影像系统收集患者的人口学信息、病因、既往史及入院48 h内临床指标和影像学资料, 并计算改良CT严重指数评分(MCTSI)、Ranson评分、急性胰腺炎严重程度床旁指数(BISAP)及急性胰腺炎风险评分(SABP)。将苏州大学附属第一医院及苏州大学附属常熟医院的数据集按照8 : 2随机分为训练集和验证集, 基于XGBoost算法, 在采用五折交叉验证、损失函数进行超参数调整的基础上构建SAP预测模型。将苏州大学附属第二医院的数据集作为独立的测试集, 通过受试者工作特征曲线(ROC曲线)评价XGBoost模型的预测效能, 并与传统AP相关病情严重程度评分进行比较;同时对特征变量进行重要性排序, 采用沙普利加和解释法(SHAP)对模型进行可视化解释。结果最终共纳入1?183例AP患者, 其中129例(10.9%)发生SAP。苏州大学附属第一医院和苏州大学附属常熟医院患者中, 训练集786例, 验证集197例;苏州大学附属第二医院的200例患者作为测试集。3组数据集分析均显示, 进展为SAP的患者存在呼吸功能异常、凝血功能异常、肝肾功能异常、血脂代谢异常等病理表现。基于XGBoost算法构建SAP预测模型;ROC曲线分析显示, 该模型预测SAP的准确度达到0.830, ROC曲线下面积(AUC)为0.927, 较MCTSI、Ranson、BISAP、SABP等传统评分系统明显提高(准确度分别为0.610、0.690、0.763、0.625, AUC分别为0.689、0.631、0.875、0.770)。基于XGBoost模型的特征变量重要性分析显示, 模型中权重排名前10位的指标依次为胸腔积液(0.119)、白蛋白(Alb, 0.049)、三酰甘油(TG, 0.036)、Ca2+(0.034)、凝血酶原时间(PT, 0.031)、全身炎症反应综合征(SIRS, 0.031)、C-反应蛋白(CRP, 0.031)、血小板计数(PLT, 0.030)、乳酸脱氢酶(LDH, 0.029)和碱性磷酸酶(ALP, 0.028), 说明上述指标对于XGBoost模型预测SAP具有重要意义。基于XGBoost模型的SHAP贡献度分析显示, 当患者出现胸腔积液及Alb降低时, SAP发生风险明显增加。结论基于机器学习XGBoost算法建立了SAP预测模型, 该模型可在入院48 h内对AP患者进展为重症的风险进行预测, 且具有良好的准确性。
-
单位苏州大学附属第一医院; 苏州大学; 苏州大学附属第二医院