Boosting算法结合SMOTE技术在青年男男性行为者HIV感染预测中的应用

作者:王肖萌; 宋德胜; 张甜甜; 常琴雪; 王淳; 王柯云; 刘媛媛; 李长平; 崔壮*; 马骏
来源:中国卫生统计, 2022, 39(01): 31-35.

摘要

目的 评价Boosting算法结合SMOTE技术预测青年男男性行为者(YMSM)HIV感染状况的性能。方法 通过网络和现场抽取2018-2019年天津市YMSM 1179名,分别用XGBoost、LightGBM、CatBoost和logistic结合SMOTE技术建立预测模型,通过AUC、F1、Accuracy、Brier score等指标评价其分类性能。结果 应用SMOTE合成数据后,logistic、CatBoost、LightGBM和XGBoost的AUC分别提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分类性能优于logistic模型。结论 Boosting算法结合SMOTE技术为类不平衡数据的分类预测提供了新思路。