摘要
目的 比较随机生存森林模型、梯度提升模型、极限梯度提升模型与Cox比例风险回归模型对生存数据的区分度性能,为生存分析方法的应用提供参考。方法 基于基准实验框架,选择SEER数据库、TCGA数据库、R软件包共13个数据集,分别构建三种机器学习模型与Cox模型,以嵌套交叉验证获得Harrell’s C-index作为模型区分度性能评价指标,采用秩和检验比较模型间性能。结果 各数据集的C-index主要集中在0.6~0.75之间。单数据集的结果不全相同,各模型C-index差异仅在部分数据集有意义,且没有一致结论;四种方法的性能在所有数据集、高删失率数据集、低删失率数据集等不同组数据集间的C指数差异均无统计学意义。结论 在不同场景下的生存数据分析中,三种机器学习模型区分度性能与传统Cox模型相近。
-
单位东南大学; 公共卫生学院