摘要
针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,本文提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(Improved Parallel Deep Forest based on Information Theory)。首先,该算法基于信息论设计了一种混合降维策略DRIT(Dimension Reduction based on Information Theory),以获得降维后的数据集,有效减少了冗余及不相关特征的数量;其次,提出了一种改进的多粒度扫描策略IMGSS(Improved Multi-Grained Scanning Strategy)对样本进行扫描,保证每个特征在扫描后,同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;最后,结合MapReduce框架,对深度森林每层级联结构中的随机森林模型进行并行化训练,同时提出了一种样本加权策略TSWS(The Sample Weighting Strategy),根据级联中随机森林模型对样本进行评估,选取评估结果较差的样本进入下一层训练,逐步减少了每层级中训练样本的数量,从而提高了算法的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果。
- 单位