摘要

针对随机森林算法(RF)以及过采样技术处理高维非均衡数据的不足,提出了新的算法:首先结合RF模型基尼系数与袋外数据准确率提出MAG算法,并用此算法对高维数据进行降维处理;其次用动态离差平方和机器学习方法改进中心SMOTE算法来优化非均衡数据少样本结构,使数据结构成为低维均衡结构;最后运用最小二乘支持向量机(LSSVM)与RF对整合数据进行分类来判定所提出的算法的有效性。RF分类器和LSSVM分类器的实验结果表明:所提出的MAG-PDSSD-SMOTE算法整合数据较已有方法在F-value值、G-mean值和Accuracy值上都有显著的提高,所提出算法整合数据较已有方法更精准,但从时间复杂度来看,提出的MAG-PDSSD-SMOTE算法比已有方法复杂一点,但还是处于同一个数量级别。