摘要
目的 利用机器学习方法预测非小细胞肺癌(NSCLC)患者的5年生存状况,提高预测效率与预测准确性。方法 采用SEER数据库的NSCLC数据进行实验。针对患者数据存在的不平衡问题,使用Borderline-SMOTE法进行数据采样,采用基于扰动理论的特征选择(PFS)方法和决策树(DT)算法筛选特征并构建患者术后生存预测模型。结果 平衡后的数据集纳入了年龄、组织学分级、种族、发病部位、肿瘤分期、病理类型、手术类型共7项预后相关变量。与LASSO、Tree-based、PFS-SVM和PFS-kNN模型相比,使用PFS-DT构建的模型具有最优的预测效果。结论 基于PFS-DT的患者生存预测模型有效提高了NSCLC患者术后生存预测的准确率,可为医生提供治疗和改善预后方面的参考。
- 单位