摘要

不平衡数据学习是机器学习中一个研究热点,近年来得到广泛的关注.以SMOTE为代表的过采样方法是不平衡数据学习的主流方法之一,近年来涌现出大量的基于SMOTE的改进过采样方法.但是,当前对过采样的研究中,如何利用样本分布信息,实现高效的过采样,仍然是一个具有挑战的问题.本文提出一种有监督的样本空间分布学习方法,用以学习少数类样本的局部邻域信息,并以局部邻域信息约束过采样过程中样本的合成,以降低线性插值可能带来的噪声以及样本重叠等不利因素,从而提高过采样的效率.在典型不平衡数据集上的实验表明,利用少数类样本邻域信息为约束,能有效提升过采样的效率.