机器学习算法在体检人群糖尿病风险预测中的应用

作者:欧阳平; 李小溪; 冷芬; 赖晓英; 张慧明; 严传杰; 王楚琼; 白雨; 邢志强; 刘旭涛; 缪苗; 邓侃; 李文源
来源:中华疾病控制杂志, 2021, 25(07): 849-853+868.
DOI:10.16462/j.cnki.zhjbkz.2021.07.020

摘要

目的探索Logistic回归分析模型和LightGBM(light gradient boosting machine)算法对体检人群未来罹患糖尿病的预测效果及影响因素。方法选取2003年8月―2019年4月在南方医院健康管理中心多次进行团体参检的36 292例非糖尿病人员,分层随机选取70%样本,以首次体检的性别、年龄、BMI、腰围、心率、收缩压、舒张压、空腹血糖等34项指标作为自变量,以相对首次体检时间的5年内是否罹患糖尿病为因变量,基于Logistic回归分析模型和LightGBM算法分别建立糖尿病预测模型。将预测模型应用于剩余30%样本,并使用受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under curve, AUC)进行预测效果的评价。结果 Logistic回归分析模型和LightGBM算法模型的AUC分别为0.906和0.910,在最佳临界点上,Logistic回归分析模型的灵敏度和特异度分别为81.5%和84.3%,LightGBM(light gradient boosting machine)算法模型的灵敏度和特异度分别为81.6%和85.2%。结论 Logistic回归分析模型和LightGBM算法模型对体检人群的未来糖尿病患病风险均有较好的预测效果。

全文