提出一种改进随机森林算法(SP-RF)。通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度。实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上。