摘要

大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度。因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT。首先改进ADASYN(Adaptive Synthetic Sampling Approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布。其次改进ReliefF(特征权重法),并将它与集成算法XGDT(eXtreme Gradient Dart Tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确。最后利用特征之间的相关性过滤低权重冗余特征,以XGDT的分类精度为评价指标通过SFS(Sequential Forward Selection)压缩特征。实验结果表明ASE-RFXT方法可以降低特征维度,节约训练时间,提高不平衡小样本数据的分类精度。