摘要

数据挖掘中如何有效地从高维特征空间选择最优特征子集,很大程度上影响模型的预测结果,基于此本文提出一种复合适应性函数、多特征组合搜索的自适应性遗传算法。算法依据统计学原理对原始特征先行过滤构建特征候选集,使用多模型融合的交叉验证结果作为适应性函数以提高每轮进化的适应值,轮盘赌算法、定长基因段交叉算法、随机基因位点变异算法分别构成选择算子、交叉算子和变异算子。通过实验对比表明该遗传算法具有一定的稳定性和有效性,能够在原始特征空间中启发性的选择最优特征子集,从而提高数值型预测准确率。