摘要

针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering, ADHSBHD).首先引入HDBSCAN聚类算法,将少数类和多数类分别聚类,将全局离群点和局部离群点的交集视为噪声集,在剔除噪声样本之后对原数据集进行处理,其次,根据少数类样本中每簇的平均距离,采用覆盖面更广的采样方法自适应合成新样本,最后删除一部分多数类样本集中的对分类贡献小的点,使数据集均衡. ADHSBHD算法在7个真实数据集上进行评估,结果证明了其有效性.

全文