随机森林算法对体检人群糖尿病患病风险的预测价值研究

作者:张占林; 孙勇; 妥小青; 叶勒丹·马汉; 龚政; 田恬; 陈珍; 古丽斯亚·海力力; 戴江红*; 姚华*
来源:中国全科医学, 2019, 22(09): 1021-1026.

摘要

背景2017年我国是全世界糖尿病患者人数最多的国家,糖尿病患者人数达到了1.14亿,及早识别糖尿病高危人群并对其进行有效干预,能够降低糖尿病的患病风险。目的探讨随机森林算法在体检人群糖尿病患病风险预测中的应用价值。方法 2016年9月—2017年3月,利用乌鲁木齐市石油新村街道和卡子湾街道社区卫生服务中心35~74岁全民健康体检的数据进行研究,考虑到数据的完整性最终纳入6 727例体检者数据(包含调查问卷、体格测量和实验室检测3部分内容),其中调查问卷内容包括一般人口学资料,体格测量指标包括身高、体质量、腰围等,实验室检测指标包括血液、血糖、血生化等。将数据集按3∶1分为训练集和测试集,在训练集中分别应用多因素Logistic回归和随机森林算法建立糖尿病风险预测模型,用测试集进行模型验证,通过预测一致率和受试者工作特征曲线下面积(AUC)评价模型的预测效能。结果在本次体检的6 727例体检者中,既往糖尿病患者和新检测出糖尿病患者717例,糖尿病患病率为10.7%。糖尿病患者中65岁及以上者占37.1%(266/717),女性占51.0%(366/717),汉族占94.0%(674/717),初中学历者占35.3%(253/717),超重者占48.0%(344/717),从不吸烟者占72.8%(522/717),从不饮酒者占77.0%(552/717)。采用多因素Logistic回归分析在训练集建立糖尿病风险预测模型对测试集进行预测,其灵敏度为0.202,特异度为0.950,预测一致率为0.696,约登指数为0.151,AUC为0.685;采用随机森林算法在训练集建立糖尿病风险预测模型对测试集进行预测,其灵敏度为0.608,特异度为0.953,预测一致率为0.864,约登指数为0.561,AUC为0.702。结论随机森林算法对体检人群的糖尿病患病风险具有较高的预测效能,但是多因素Logistic回归分析对糖尿病影响因素有直观的解释。建议在实际应用中结合两个模型的优点,使其在疾病风险预测中发挥最大的价值。