摘要

以提升不均衡数据集内少数类样本的分类性能为目标,从样本采样以及分类器优化两方面构建面向不均衡数据集的过抽样数学模型。利用数据分布不均衡条件下的少数类过抽样算法处理不均衡数据集内少数类样本,算法将少数类样本作为中心,利用新生成的虚拟少数类样本改善不平衡数据集内数据不均匀分布情况,将完成处理的少数类样本与多数类样本结合建立新训练样本集合,新训练样本集合输入经过熵值法优化的混合核ε-SVM分类器中训练分类器,将测试样本集输入完成训练的优化混合核ε-SVM分类器中,实现不均衡数据集内样本精准分类。实验结果表明,上述模型分类不均衡数据集内少数类样本的F-Value值高于0.8,具有良好的分类效果,可解决数据集内样本分布不均衡情况。