摘要

为了及早发现中国患糖尿病的高危人群并提供有针对性的干预措施,选取代表中国人群的中国健康与养老追踪调查(CHARLS)数据集作为研究对象,提出基于随机森林-交叉验证递归特征消除法(RF-RFECV)和LightGBM的混合算法(RF-RFECV-LightGBM),并与其他5种算法进行实验对比。结果表明RF-RFECV-LightGBM整体性能最优,准确率、精度、召回率、F1值、AUC值分别为0.9772、0.9952、0.8178、0.8978、0.9357。预测时间为0.0428 s,较特征选择前LightGBM的预测时间缩短0.0549 s(提升56.19%),表明了RF-RFECV算法特征选择的有效性。最后,同样的预测流程在皮马印地安人数据集上进行实验,结果达到0.9415的准确率,进一步验证了所提算法的优异性能,可以辅助临床糖尿病诊疗。