在对样本分布不均衡的数据进行预测分类时,样本均衡化往往是最重要的一步,而不同的均衡化方法产生的结果不同。对于"少数类"样本占比较小的数据集,用"降采样"方法难以获得好的预测结果。对此,"过采样"是一种有效的策略。随机森林是一种有效的集成学习方法,有极高的准确率,几乎不存在过拟合现象。再结合其他算法,将预测数据和训练数据进行整合,可获得更大的数据集,从而显著提高风险评估的准确率。