摘要

目的采用logistic、随机森林和CatBoost结合过采样技术(synthetic minority over-sampling technique, SMOTE)技术对天津市某浴池MSM人群数据构建模型以预测HIV的感染风险,并评价三个模型的分类效果。方法利用10×10折交叉验证对模型进行训练和预测,使用网格搜索确定各模型的超参数。然后使用AUC、accuracy、brier score和F1值对上述三种模型进行评价。结果在原始数据上,三种模型的表现基本一致,但在对类别比例不敏感的AUC和Brier score上,CatBoost的表现略优于其他两个模型。CatBoost、logistic和随机森林的AUC分别为0.798±0.026,0.792±0.037,0.934±0.040;Brier score分别为0.056±0.001、0.091±0.004和0.054±0.003。使用SMOTE后,CatBoost的性能明显优于其他两个模型。在测试集上,其AUC、accuracy、brier score和F1值分别为0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007。结论可使用Catboost模型预测MSM人群中的潜在HIV感染者。