摘要

目的 比较不同情形下随机森林与深度森林的分类性能。方法 通过模拟试验和实例分析比较两种算法在结局变量不均衡、数据中存在大量噪声变量、变量间存在多重共线性、变量间存在交互作用、数据中存在混杂因素的情形下的分类性能,以模型预测精确率、召回率、F1-score、AUC(ROC曲线下面积)和准确率作为模型预测性能的评判指标。结果 随机森林与深度森林在抗噪声能力方面均有较好表现,当数据中存在多重共线性或者交互作用时也能有较高的预测性能;在面对结局不平衡的数据时,随机森林会受到较强的干扰,而深度森林能保持较高的准确率和召回率。当数据中存在混杂因素时,两种算法都不能消除混杂因素的影响。实例分析也显示深度森林在预测性能上略优于随机森林。结论 深度森林在预测性能上优于随机森林,能够较好地拟合结局不均衡数据,拓展了决策树模型的应用场景。