摘要

针对传统的机器学习分类算法在非平衡数据集上准确率较低的问题,提出一种基于随机森林Gini指标和卡方检验的最优特征子集的特征选择方法 (RFG-χ2),并应用于支持向量机算法模型中。利用SMOTE算法对非平衡数据集进行预处理,通过权衡特征的关联性和特征强度这两个指标,训练生成支持向量机模型所需的最优特征子集。实验结果表明,该方法在支持向量机(SVM)模型上筛选的两个特征子集对应的分类精度分别提高了2.5%和1.5%。

全文