基于基准实验的生存数据机器学习和COX模型的区分度性能比较

作者:马溶基; 焦志刚; 缪鹏程; 陆贝尔; 陈华玲; 钱永康; 陈炳为*
来源:现代预防医学, 2023, 50(13): 2344-2368.
DOI:10.20043/j.cnki.MPM.202211405

摘要

目的 比较随机生存森林模型、梯度提升模型、极限梯度提升模型与Cox比例风险回归模型对生存数据的区分度性能,为生存分析方法的应用提供参考。方法 基于基准实验框架,选择SEER数据库、TCGA数据库、R软件包共13个数据集,分别构建三种机器学习模型与Cox模型,以嵌套交叉验证获得Harrell’s C-index作为模型区分度性能评价指标,采用秩和检验比较模型间性能。结果 各数据集的C-index主要集中在0.6~0.75之间。单数据集的结果不全相同,各模型C-index差异仅在部分数据集有意义,且没有一致结论;四种方法的性能在所有数据集、高删失率数据集、低删失率数据集等不同组数据集间的C指数差异均无统计学意义。结论 在不同场景下的生存数据分析中,三种机器学习模型区分度性能与传统Cox模型相近。

全文