基于机器学习算法评估七种肿瘤相关自身抗体在非小细胞肺癌中的应用价值

作者:郝莹; 吴丽娜; 吕薏潼; 刘毓哲; 秦晓松; 郑锐*
来源:中华预防医学杂志, 2023, 57(11): 1827-1838.
DOI:10.3760/cma.j.cn112150-20221111-01099

摘要

目的以机器学习算法建立并验证的诊断模型为依据, 探讨7种肿瘤相关自身抗体(TAABs), 即抗p53、PGP9.5、SOX2、GAGE7、GBU4-5、MAGEA1和CAGE抗体, 在非小细胞肺癌(NSCLC)诊断及其与良性肺结节鉴别诊断中的应用价值。方法本研究为临床病例回顾性研究。模型建立队列来自2018年11月至2021年6月于中国医科大学附属盛京医院胸外科进行肺癌根治术的227例初治NSCLC患者为NSCLC组, 同时选择良性肺结节120例、肺炎122例及健康者120名作为对照组;外部验证队列来自2022年5月至12月, 中国医科大学附属盛京医院胸外科行肺癌根治术的100例初治NSCLC患者为NSCLC组, 同时选择良性肺结节36例、肺炎32例及健康者44名作为对照组。将NSCLC分成早期(0~ⅠB期)与中晚期(ⅡA~ⅢB期)亚组。采用酶联免疫法检测7种TAABs, 电化学发光法检测癌胚抗原(CEA)和细胞角蛋白19片段(CYFRA21-1)在各组之间的血清浓度。采用4种机器学习算法, 包括极限梯度提升(XGBoost)、Lasso逻辑回归(LR)、朴素贝叶斯(NB)、以及支持向量机(SVM)分别建立多指标联合检测模型, 并选择XGBoost作为最佳算法建立了针对临床应用的患者在线风险评估工具。结果除抗p53抗体外, 其余6种TAABs及CEA、CYFRA21-1在NSCLC中血清浓度显著升高(P<0.05);中晚期NSCLC患者血清抗SOX2[1.50(0.60, 10.85)U/mlvs.0.8(0.20, 2.10)U/ml, Z=2.630, P<0.05]和MAGEA1抗体[0.20(0.10, 0.43)U/mlvs. 0.10(0.10, 0.20)U/ml, Z=2.289, P<0.05]及CEA[3.13(2.12, 5.64)ng/mlvs. 2.11(1.25, 3.09)ng/ml, Z=3.970, P<0.05]和CYFRA21-1[4.31(2.37, 7.14)ng/mlvs. 2.53(1.92, 3.48)ng/ml, Z=3.959, P<0.05]浓度显著高于早期。采用机器学习算法XGBoost建立多指标联合检测模型(剔除p53后), 6-TAABs联合CYFRA21-1均为诊断NSCLC及NSCLC早期的最佳组合模型, 诊断最佳界值分别为0.410、0.701、0.744, AUC分别为0.828、0.757、0.741(NSCLCvs. 对照组, NSCLCvs. 良性肺结节组, 早期NSCLCvs. 良性肺结节组)。模型的外部验证队列的AUC分别为0.760、0.710、0.660(NSCLCvs. 对照组, NSCLCvs. 良性肺结节组, 早期NSCLCvs. 良性肺结节组)。结论在NSCLC诊断中, 6-TAABs诊断效能优于传统肿瘤标志物CEA和CYFRA21-1;6-TAABs+CYFRA21-1检测模型为诊断NSCLC最优的模型, 其可有效地辅助临床用于NSCLC及NSCLC早期与良性肺结节的鉴别诊断, 在肺癌预防和早期筛查中发挥重要作用。

  • 单位
    中国医科大学附属盛京医院

全文