摘要

为了解决随机森林在处理高维连续型数据时的不相容信息问题,一定程度上提高算法的准确率与计算效率,结合最大相关最小冗余的思想,提出了一种融合最大信息系数的随机森林算法(random forest algorithm combining maximum information coefficient,MICRF)。首先运用最大信息系数度量方法,分别计算特征与因变量,特征与特征之间的相关系数,根据两者之间的差值,进行贪婪搜索,依次筛选出最佳的特征子集来构造随机森林。在UCI数据集上的实验表明,与原始随机森林算法相比,MICRF算法对高维连续型数据的准确率与模型效率上有着明显的提高。

  • 单位
    江西中医药大学计算机学院