摘要

针对传统特征选择方法如信息增益存在选择偏好、处理非线性问题能力弱、以及参数手动优化过程繁琐的问题,提出一种基于最大互信息系数与皮尔逊相关系数的两阶段特征选择融合算法,并利用遗传算法对其中两个超参数自动进行优化.第一阶段,利用最大互信息系数获取特征和标签之间的相关性来进行特征选择;第二阶段,使用皮尔逊相关系数对获取的特征子集进行去冗余.进一步,基于遗传算法对两个阶段中的两个超参数自动进行优化.将该方法运用于多组UCI数据集中进行测试.实验结果表明,该算法能够兼顾降低特征空间的维度和提升算法的分类性能.

全文