摘要
针对类别非平衡情况下的类重叠问题,引入了两种基于邻域的欠采样方法:共同近邻搜索欠采样和递归搜索欠采样,其主要思想是通过消除重叠区域中的负类样本来缓解类别非平衡问题,学习算法采用AdaBoostv算法,通过最大化样本的最小间隔(最优间隔)来提高分类器的分类能力.为了进一步解决非平衡数据分类问题,AdaBoostv算法的基分类器采用加权最优间隔分布机模型,对模型中的间隔均值项和铰链损失项加权,权值是依据数据的非平衡比给出的,并利用带有方差减小的随机梯度下降方法对优化模型进行求解,以提高算法的收敛速度.对比实验表明,提出的算法在非平衡数据分类问题上具有明显的优势.
- 单位