两种机器学习算法构建老年冠心病患病风险评估模型的效能比较研究

作者:王晓丽; 施天行; 彭德荣; 王朝昕; 王慧; 石建伟; 俞文雅*
来源:中华全科医学, 2021, 19(04): 523-527.
DOI:10.16766/j.cnki.issn.1674-4152.001852

摘要

目的基于机器学习算法构建老年冠心病风险评估模型,并比较逻辑回归(logistic)和极限梯度上升(eXtreme Gradient Boosting, XGBoost)模型在社区老年人群中预测冠心病风险的效能,以期为老年人冠心病防治提供更高效的健康管理方法。方法抽取2019年浦东地区47家社区卫生服务中心的8万条老年体检数据构建本次模型,经特征工程筛选27个变量,采用logistic和XGBoost算法构建老年冠心病风险评估模型。结果 XGBoost模型最优参数为learningrate=0.1,树深度=8,最小子节点权重=5,循环次数=50;logistic模型最优参数为:C=1,classweight=None, maxiter=100,solver=newton-cg。XGBoost和logistic准确度分别为0.82和0.71,受试者工作特征曲线下面积分别为0.85和0.80。两模型特征重要性分布区别较大,XGBoost模型重要性集中分布在少数特征中,前9项特征重要性之和为94.2%,logistic模型重要性分布相对均衡,前9项特征的重要性之和为59.5%。结论基于社区老年人体检数据构建的冠心病风险评估模型稳定性较好,其中XGBoost算法模型的效能相对于logistic算法模型的结果更优,能够为社区老年人冠心病风险评估提供方法参考。

全文