摘要

高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。

全文