摘要

在金融市场中,互联网征信是规避损失风险的重要参考依据,其中违约用户识别率的准确性对征信来说则更为重要。从这一角度出发,本文提出了改进的随机森林算法(CS-RF)。利用金融公司的实际数据,从随机森林原模型基础上加以改进,在训练样本生成决策树后引入代价敏感函数,为多类样本和少类样本的错误分类赋予不同的代价,搜索出更优的决策树集成。通过实证分析,将预测结果与Logistic回归模型,决策树,传统随机森林,BP神经网络进行对比,得出CS-RF模型预测效果最优。