摘要

随机森林是一种组合分类器技术,相较于决策树等单分类器,具有更好的预测和分类性能,但其也存在一些问题:因为随机森林自身的随机性,导致预测结果存在波动性;所使用的原始数据集样本基数大,维数多,增加了随机森林组合分类器的训练时间。针对以上问题,提出优化随机森林模型,对数据集进行数据集预处理和PCA降维操作,引入累计贡献率。结合选择的最佳阈值进行最终的预测结果分类,提高了模型的训练速度、预测准确率和稳定性。实验证明,该方法具有更优越的预测性能。