摘要
受特征重要性不平衡的影响,随机森林可能随机抽取到弱特征子集,从而生成"弱决策树",进而导致模型的收敛速度降低、模型的性能下降。鉴于此,提出融合因子分析的随机森林模型,主要创新在于采用因子分析法构建特征组,再按特征个数比随机抽取特征形成每个分裂节点的候选子集。以模型的分类预测、回归拟合、特征重要性分析的准确率和运行时间为评价指标,选取了9组UCI数据综合考察模型的整体性能,并与决策树、随机森林对比实验。结果表明:融合因子分析的随机森林模型基本消除了准确率低的决策树产生,提高了模型的准确率和收敛速度,泛化性更强,更加有利于高维大数据,可行有效。
-
单位江西中医药大学计算机学院