摘要
目的探索Logistic回归分析模型和LightGBM(light gradient boosting machine)算法对体检人群未来罹患糖尿病的预测效果及影响因素。方法选取2003年8月―2019年4月在南方医院健康管理中心多次进行团体参检的36 292例非糖尿病人员,分层随机选取70%样本,以首次体检的性别、年龄、BMI、腰围、心率、收缩压、舒张压、空腹血糖等34项指标作为自变量,以相对首次体检时间的5年内是否罹患糖尿病为因变量,基于Logistic回归分析模型和LightGBM算法分别建立糖尿病预测模型。将预测模型应用于剩余30%样本,并使用受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under curve, AUC)进行预测效果的评价。结果 Logistic回归分析模型和LightGBM算法模型的AUC分别为0.906和0.910,在最佳临界点上,Logistic回归分析模型的灵敏度和特异度分别为81.5%和84.3%,LightGBM(light gradient boosting machine)算法模型的灵敏度和特异度分别为81.6%和85.2%。结论 Logistic回归分析模型和LightGBM算法模型对体检人群的未来糖尿病患病风险均有较好的预测效果。
- 单位