摘要

目的以SEER数据库中1990—2014年间的乳腺癌数据为研究对象,利用机器学习方法,分析乳腺癌的预后因素,辅助医师对患者的预后进行有效评判。方法根据临床医师的建议,筛选了12个字段作为模型输入字段,以术后5年生存状况作为模型输出字段。首先利用单因素统计分析方法初步筛选预后因素,再分别利用logistic回归和决策树两种机器学习分类算法进行建模分析,藉此寻找影响乳腺癌5年预后的因素。采用十折交叉法组织样本数据,并利用过抽样和欠抽样技术进行样本的平衡处理;以灵敏度、特异度及ROC下的AUC等参数作为模型的评价指标。结果在12个模型输入字段中,肿瘤分期、肿瘤分级、肿瘤尺寸、雌激素水平、年龄分组、孕激素水平等因素对于乳腺肿瘤预后具有较大影响;在此两种模型下,模型测试集上的灵敏度和特异度均介于74. 2%~78. 2%之间,AUC均处于0. 838~0. 850之间。结论利用Logistic回归和决策树算法构建乳腺癌患者的优化预后模型,可辅助医师判断患者预后情况及治疗效果。

  • 单位
    上海杉达学院