摘要

在不平衡数据分类问题中,样本的稀缺性和复杂分布特性是造成分类性能下降的主要原因.现有混合重采样方法结合过采样和欠采样方法来调整样本的局部分布,但独立于模型训练,被删减的样本价值及其对分类器的影响难以估计.针对该问题,提出了一种邻域检测与反馈的混合重采样进化挖掘方法(APMMOEA-EC),该方法以召回率和精准率为优化目标,根据模型性能反馈引导最优样本组合的优化过程.首先使用线性插值法合成少数类样本;然后提出邻域检测方法计算每个样本邻域中异类样本个数,并设置容忍值选取部分样本进行优化,从而对决策空间降维;在优化阶段,提出自适应搜索行为转换方法,对满足一定收敛程度的最优解及其变量特征进行频繁模式挖掘,对非零候选集进行局部优化,进一步提高解集质量.在具有复杂分布的7个不平衡数据集上,对容忍值进行参数选择实验;并与5种流行的多目标优化算法进行性能对比实验;在3个规则不同的分类器上,对比5种流行的不平衡数据处理方法的分类精度,上述实验结果均表明了APMMOEA-EC方法的优越性.

全文