摘要

针对当前银行用户数据中良好用户与违约用户存在类别不平衡的情况,以及由此导致分类模型出现过拟合且准确率过于乐观的问题,提出一种基于SMOTE+TOMEK采样算法的XGBoost分类模型。该模型以Lending Club公开信贷数据集为实验数据,通过SMOTE+TOMEK算法进行采样得到样本均衡化且边界清晰的平衡数据集,通过XGBoost模型对数据样本进行分类并与单一分类模型进行对比。实验结果表明,ST-XGB模型从精准率、AUC分数等模型评估指标均优于单一分类模型,具有较好的泛化能力与稳定性。