基于基准实验的生存数据机器学习和COX模型的区分度性能比较

马溶基; 焦志刚; 缪鹏程; 陆贝尔; 陈华玲; 钱永康; 陈炳为<sup>*</sup>

doi:10.20043/j.cnki.MPM.202211405

摘要

目的比较随机生存森林模型、梯度提升模型、极限梯度提升模型与Cox比例风险回归模型对生存数据的区分度性能，为生存分析方法的应用提供参考。方法基于基准实验框架，选择SEER数据库、TCGA数据库、R软件包共13个数据集，分别构建三种机器学习模型与Cox模型，以嵌套交叉验证获得Harrell’s C-index作为模型区分度性能评价指标，采用秩和检验比较模型间性能。结果各数据集的C-index主要集中在0.6～0.75之间。单数据集的结果不全相同，各模型C-index差异仅在部分数据集有意义，且没有一致结论；四种方法的性能在所有数据集、高删失率数据集、低删失率数据集等不同组数据集间的C指数差异均无统计学意义。结论在不同场景下的生存数据分析中，三种机器学习模型区分度性能与传统Cox模型相近。

单位
东南大学; 公共卫生学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 04:31

基于基准实验的生存数据机器学习和COX模型的区分度性能比较

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友