摘要

作为处理生存数据的经典模型,Cox模型具有很高的实用价值。随着大数据的盛行,人们面对高维、强相关生存数据的机会越来越多。如何克服传统Cox模型不能处理上述生存数据的缺陷,成为统计学界共同关注的热点。基于此,文章使用了乳腺癌数据集(Breast cancer dataset),采用Cox模型结合四种惩罚项(SCAD、Adaptive Elastic Net、Adaptive Lasso和ADS方法)进行变量选择,并使用交叉验证法对参数进行调节。研究结果表明:Adaptive Elastic Net方法在乳腺癌数据集中表现最佳,具有高预测性能;而适用于注重模型解释性和稀疏性数据特征选择的方法则是Adaptive Lasso。