摘要
目的 基于机器学习模型(machine learning,ML)和logistic回归构建预测结直肠腺癌5年生存结局的组合模型。方法 选取SEER数据库中12 980名患者,采用传统logistic回归分析影响患者5年存活的相关因素。使用相关因素构建以极限梯度提升、自适应提升、支持向量机、随机森林、回归决策树的预测概率为自变量,分别纳入极限梯度提升、自适应提升和logistic回归做最终预测的组合模型,比较各组合模型5年结直肠腺癌生存预测效果。结果 年龄、手术、化疗、分化程度、T分期、N分期、M分期、CEA状况和婚姻,9个因素影响结直肠腺癌患者5年生存。组合模型logistic+Adaboost+RF+XGboost,内部测试集AUC、准确率、F1分数分别为0.861、0.801、0.832。外部验证集AUC、准确率、F1分数分别为0.833、0.806、0.869。组合模型效能优于单一模型。结论 机器学习组合模型更具有优势,可以有效预测结直肠腺癌5年生存结局,辅助临床工作者制定诊疗方案和优化癌症防治措施。
-
单位山西医科大学; 山西省人民医院; 公共卫生学院