摘要
<正>在非平衡数据的问题上,我们实验发现随机森林无法很好的解决这一问题。本文采用了SMOTE算法,能够有效的减少和降低数据集的非平衡性。在面对医疗数据高度特征冗余的特点上,该方案使用了基于随机森林和序联合搜索的Wrapper式特征选择算法。在构造随机树时,该方案使用了Spark实现随机树的并行构建,提高了运行速率。通过对随机森林优化后的模型与随机森林、K最近邻、神经网络和向量机等模型进行对比,实验结果表明,随机森林优化算法的精度达到81.13%,优于其他的4种分类模型。
-
单位辽宁工业大学