摘要

目的基于机器学习建立并验证放射组学预测非小细胞肺癌(non-small cell lung cancer, NSCLC)表皮生长因子受体(epidermal growth factor receptor, EGFR)基因突变模型。方法收集462例病理证实的NSCLC且术前行CT和明了EGFR基因状态的患者。从患者术前薄层CT中提取107个放射组学特征。采用随机森林(random forest)建立机器学习模型预测NSCLC的EGFR突变状态,并采用5-折叠交叉验证进行校正。结果 462例NSCLC患者中,EGFR突变型214例(46.3%)。单因素分析发现5个特征以及吸烟状况和性别与EGFR突变相关。利用这5个放射组学特征以及吸烟状态和性别构建随机森林模型在训练集对EGFR突变的ROC曲线下面积(he area under the ROC curve, AUC)为0.774,敏感性为74.5%,特异性为79.1%。在验证集中AUC为0.756,敏感性为79.7%,特异性为65.7%。结论基于机器学习的放射组学模型能较好的预测NSCLC的EGFR的突变,有助于临床医生术前治疗方案的选择。