摘要
目的:开发和验证乳腺癌患者新发心血管疾病(cardiovascular disease, CVD)的3年预测模型。方法:基于内蒙古区域医疗数据,纳入接受抗肿瘤治疗的18岁以上乳腺癌女性患者。多因素Fine&Gray模型纳入预测因子后,使用Lasso回归筛选变量,在训练集上拟合Cox比例风险、Logistic回归、Fine&Gray、随机森林和XGBoost模型,在测试集上分别用受试者工作特征(receiver operating characteristics, ROC)曲线下面积(area under the curve, AUC)和校准曲线评价模型区分度和校准度。结果:共纳入19 325例接受抗肿瘤治疗的乳腺癌患者,平均年龄(52.76±10.44)岁,中位随访时间1.18年[四分位距(interquartile range, IQR):2.71]。7 856例患者(40.65%)在乳腺癌诊断3年内发生CVD。Lasso回归筛选的预测因子为乳腺癌诊断年龄、居住地国内生产总值(gross domestic product, GDP)、肿瘤分期、高血压、缺血性心脏病及脑血管疾病既往史、手术类型、化疗类型、放疗类型。不考虑生存时间时,XGBoost模型的AUC显著高于随机森林模型[0.660 (95%CI:0.644~0.675)vs. 0.608 (95%CI:0.591~0.624),P<0.001]和Logistic回归[0.609 (95%CI:0.593~0.625),P<0.001],Logistic回归和XGBoost模型的校准度更好。考虑生存时间时,Cox比例风险模型和Fine&Gray模型的AUC差异无统计学意义[0.600 (95%CI:0.584~0.616)vs. 0.615 (95%CI:0.599~0.631),P=0.188],但Fine&Gray模型的校准度更好。结论:基于区域医疗数据建立乳腺癌新发CVD的预测模型具有可行性。不考虑生存时间时,Logistic回归和XGBoost模型的预测性能更好;考虑生存时间时,Fine&Gray模型的预测性能更好。
-
单位内蒙古自治区疾病预防控制中心; 北京大学; 公共卫生学院; 恶性肿瘤发病机制及转化研究教育部重点实验室; 北京市肿瘤防治研究所