摘要

目的 构建一种术前预测尿路结石患者患感染性结石风险的机器学习模型,以期改进结石患者的术前管理。方法 选取2018年8月—2023年3月因尿路结石就诊于徐州市中心医院的患者,收集临床资料进行回顾性分析。利用“caret”R包将患者以3∶1的比例随机分为训练集和测试集,在训练集中通过Lasso回归分析筛选预测因子,使用9种机器学习模型拟合。根据受试者工作特征曲线下面积(ROC-AUC)、精确率-召回率曲线下面积(PR-AUC)、准确率、精确率、F1分数、校准曲线、以及临床决策曲线评估上述模型的效能。结果 本研究共纳入患者350例,其中感染性结石患者108例,非感染性结石患者242例。基于十折交叉验证进行Lasso回归分析,筛选出11个临床变量,包括尿pH值、血尿酸、尿亚硝酸、年龄、尿结晶、淋巴细胞、尿蛋白质、性别、肾积水情况、吸烟、尿细菌培养。基于上述临床变量构建9种机器学习模型,其中随机森林模型的效能最好,准确率为0.83;F1分数为0.69;PR-AUC为0.77;精确率为0.77;ROC-AUC为0.87,95%CI(0.78~0.94)。校准曲线结果进一步显示,随机森林模型的曲线拟合度较好,并且布里尔分数在所有模型中最小为0.13。临床决策曲线表明,当阈值为0.38~0.71时,随机森林模型获得的净获益在所有模型中最大。结论 随机森林模型是一种有效预测感染性结石的机器学习模型,其中尿pH值、血尿酸,以及尿亚硝酸是该预测模型中最重要的指标。