摘要
目的 探讨基于CT图像影像组学特征的不同机器学习模型对非小细胞肺癌表皮生长因子受体(EGFR)突变的预测价值。方法 回顾性分析有完整EGFR突变检测结果的非小细胞肺癌患者,将CT图像导入ITK-SNAP软件勾画感兴趣区,通过Python提取影像组学特征。按照7∶3划分为训练集和验证集,在训练集中通过F检验和最小绝对收缩和选择算法(LASSO)回归筛选最具有预测价值的影像组学特征,分别构建逻辑回归(LR)、决策树(DT)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、朴素贝叶斯(NB)、K-最近邻法(KNN)等7种机器学习模型,在验证集中进行评价。结合最优机器学习模型和有预测价值的一般资料建立列线图,校准曲线评估列线图的预测误差。绘制受试者工作特征曲线,曲线下面积(AUC)、F1 Score、准确率、精确率、召回率、特异度、敏感度等评估模型预测效能,DeLong检验用来比较AUC之间的差异。结果 共纳入198例患者,每例提取1050个影像组学特征,最终筛选出16个组学特征,机器学习模型中随机森林模型效能最优,在训练集中的AUC、F1 Score分别为0.988、0.983,验证集中AUC、F1 Score分别为0.793、0.653。结论 基于CT图像影像组学特征的随机森林模型预测非小细胞肺癌EGFR突变的性能最优,一般资料的加入未能显著提高预测能力。
-
单位郑州大学第二附属医院