乳腺癌患者新发心血管疾病预测模型的建立与验证:基于内蒙古区域医疗数据

作者:张云静; 乔丽颖; 祁萌; 严颖; 亢伟伟; 刘国臻; 王明远; 席云峰*; 王胜锋*
来源:北京大学学报(医学版), 2023, 55(03): 471-479.
DOI:10.19723/j.issn.1671-167X.2023.03.013

摘要

目的:开发和验证乳腺癌患者新发心血管疾病(cardiovascular disease, CVD)的3年预测模型。方法:基于内蒙古区域医疗数据,纳入接受抗肿瘤治疗的18岁以上乳腺癌女性患者。多因素Fine&Gray模型纳入预测因子后,使用Lasso回归筛选变量,在训练集上拟合Cox比例风险、Logistic回归、Fine&Gray、随机森林和XGBoost模型,在测试集上分别用受试者工作特征(receiver operating characteristics, ROC)曲线下面积(area under the curve, AUC)和校准曲线评价模型区分度和校准度。结果:共纳入19 325例接受抗肿瘤治疗的乳腺癌患者,平均年龄(52.76±10.44)岁,中位随访时间1.18年[四分位距(interquartile range, IQR):2.71]。7 856例患者(40.65%)在乳腺癌诊断3年内发生CVD。Lasso回归筛选的预测因子为乳腺癌诊断年龄、居住地国内生产总值(gross domestic product, GDP)、肿瘤分期、高血压、缺血性心脏病及脑血管疾病既往史、手术类型、化疗类型、放疗类型。不考虑生存时间时,XGBoost模型的AUC显著高于随机森林模型[0.660 (95%CI:0.644~0.675)vs. 0.608 (95%CI:0.591~0.624),P<0.001]和Logistic回归[0.609 (95%CI:0.593~0.625),P<0.001],Logistic回归和XGBoost模型的校准度更好。考虑生存时间时,Cox比例风险模型和Fine&Gray模型的AUC差异无统计学意义[0.600 (95%CI:0.584~0.616)vs. 0.615 (95%CI:0.599~0.631),P=0.188],但Fine&Gray模型的校准度更好。结论:基于区域医疗数据建立乳腺癌新发CVD的预测模型具有可行性。不考虑生存时间时,Logistic回归和XGBoost模型的预测性能更好;考虑生存时间时,Fine&Gray模型的预测性能更好。

全文