摘要
目的 采用logistic回归、决策树和Lagrangian支持向量机(Lagrangian Sopport Vector Machine,LSVM)三种方法构建前列腺癌的早期诊断预测模型,并比较三种模型的预测效能,为前列腺癌的早期诊断提供理论支持。方法 数据来源于国家临床医学科学数据中心(301医院)的《前列腺肿瘤预警数据集》,将清洗整理后的数据按7:3的比例随机分成训练集和测试集,基于训练集数据采用单因素Logistic回归筛选前列腺癌的关联因素,并建立多因素Logistic回归分析、LSVM和随机森林模型三个前列腺癌早期诊断预测模型,用测试集数据验证三个模型的预测准确性并用ROC曲线对三种模型进行评价比较。结果 单因素Logistic分析筛选出13项具有统计学意义的指标,包括年龄、肌酸激酶同工酶、甘油三酯、磷脂、游离PSA、总PSA、钙、血清尿酸、载脂蛋白A1、载脂蛋白B、载脂蛋白C2、载脂蛋白C3、载脂蛋白E。多因素Logistic分析筛选出4个有统计学意义的变量:年龄、肌酸激酶同工酶、游离PSA、总PSA。LSVM模型筛选出10项预测因子,按重要性由高至低分别是:总PSA、年龄、载脂蛋白A1、磷脂、载脂蛋白B、甘油三酯、血清尿酸、游离PSA、肌酸磷酸同工酶、载脂蛋白E。随机森林模型筛选出10项预测因子,按重要程度排序由高至低依次为:载脂蛋白C3、磷脂、游离PSA、载脂蛋白B、载脂蛋白E、钙、血清尿酸、载脂蛋白A1、载脂蛋白C2、肌酸激酶同工酶。多因素非条件Logistic回归、LSVM模型和随机森林模型分析的AUC分别为0.895(0.876,0.913)、0.918(0.902,0.934)、0.724(0.688,0.760)。结论 LSVM模型预测效果最好,多因素Logistic回归模型预测效果尚可,随机森林的预测效果不佳。
-
单位公共卫生学院; 西南医科大学