摘要

目的 探究机器学习方法对老年人高脂血症的预测价值,并从中分析老年人高脂血症的危险因素。方法 采用分层随机整群抽样方法抽取潍坊市9个县市区27个社区5 759位60岁及以上老年人,并收集这些老年人在2020年度的健康体检资料,排除缺失或异常资料,最终将4 534位老年人纳入研究。将这些老年人按照7∶3的比例随机划分为训练集和验证集,并采用单因素分析筛选出10个显著性变量,用于构建支持向量机、决策树、XGBoost、CATBoost和LightGBM风险预测模型,随后采用AUC(ROC曲线下面积)、精确率、准确率、召回率、F1值评价其性能。结果 CATBoost机器学习模型的综合性能最好,其AUC、精确率、准确率、召回率、F1值分别为0.82、76.49%、92.46%、78.68%、0.85。在CATBoost模型预测老年人高脂血症的风险过程中,9个变量对高脂血症风险预测较为重要,其重要程度由高到底排序依次为收缩压、腰围、空腹血糖、体质指数、舒张压、吸烟情况、年龄、饮酒情况和性别。而且经模型优化后发现,仅纳入这9个变量即可较好的预测风险。结论 基于CATBoost机器学习方法构建的老年人高脂血症风险预测模型具有较好的预测效果,可为老年人高脂血症的防治工作提供参考。

全文