概率密度函数的自适应过采样算法研究

作者:张忠林; 傅添翼; 闫光辉
来源:小型微型计算机系统, 2022, 43(03): 514-519.
DOI:10.20009/j.cnki.21-1106/TP.2020-0965

摘要

针对传统的过采样算法中决策边界模糊以及噪声样本分布问题,本文提出一种基于概率密度函数与自适应过采样算法.首先将少数类样本分为安全样本、边界样本、噪声样本;然后采用瑞利分布(Rayleigh Distribution),对安全样本及边界样本进行采样操作,利用其概率密度函数对新样本的分布密度进行构造,以此达到平衡数据集的目的;最后使用随机森林作为分类器,并进行网格搜索(Gridsearch)进行参数寻优.实验结果将所提出的方法与4种代表性算法在10个不均衡数据集上进行了比较,验证了该算法的有效性.