摘要
目的基于特征选择和模型可解释方法构建易于理解的代谢综合征风险预测模型,探讨其在代谢综合征防控中的应用价值,为代谢综合征的早期防控提供方法学参考。方法收集和清洗乌鲁木齐市某健康体检机构2018年体检数据,采用RFE、mRMR、Lasso三种特征选择方法结合变量重要性、LIME两种模型可解释方法对代谢综合征风险预测模型建模前后进行处理。结果综合RFE、mRMR、Lasso三种特征选择方法的结果筛选出21个变量;基于特征选择结果构建的预测模型均具有较好的分类性能,其中XGBoost模型性能最优;利用变量重要性、LIME对XGBoost模型的解释可得,除传统的危险因素外,代谢综合征还与白细胞计数、高尿酸血症、谷氨酰转肽酶、丙氨酸氨基转移酶相关。结论特征选择结合模型可解释方法运用于代谢综合征风险预测模型构建流程中,可辅助构建高分类性能及易于理解的代谢综合征风险预测模型,对代谢综合征的早期防制具有重要的实践意义。
-
单位新疆医科大学; 公共卫生学院