摘要

当前金融机构正在努力应对不良资产的增长问题,在信贷领域借贷逾期预测结果的准确性将直接决定不良资产的规模.为了更好预测借贷人的还款能力,通常会引入数据模型方法,但对于数据样本较少的新业务,单纯用这类数据容易导致模型结果过拟合.本文通过实际案例分析,对小样本业务数据进行相似业务数据补充,并采用随机森林、LightGBM、XGBoost、DNN和TrAdaBoost迁移学习方法,旨在为小样本业务在模型建立过程中样本不足的问题提供一种有效的解决方法.研究结果表明,针对数据量少的产品,结合相似金融业务数据后采用这五种机器学习模型方法的预测结果 AUC (area under curve)均大于80,其中使用迁移学习模型比LightGBM、XGBoost、DNN和随机森林模型在预测集上的AUC至少高出2个点;此外迁移学习模型的预测结果的精准率(88%)和召回率(73%)也是最高的.

全文