摘要

大数据背景下,现实生活中存在大量的非平衡数据,不同类别样本数量不平衡,而且在个体错分成本或错分损失上也不平衡。对于数量上的不平衡,已有许多成功的算法,典型的方法是在学习的过程中动态地改变样本个体的权重;但是针对错分成本的算法很少,原因之一是这种损失在实际问题中很难获得。对于数据集中每一个个体都潜在地存在可能给机构带来的错分损失,提出一个基于投影距离的错分损失期望的函数,并将这个函数用于数据分类集成算法中。分类集成算法的迭代过程中,弱分类器的选择原则是使得正确分类个体的权重之和与损失期望之和的加权和取最大值的弱分类器。在UCI数据集上的实验结果表明,在保持传统集成算法分类性能的基础上,所提算法能较好地提高少数类的分类性能。