面向不平衡数据的三支决策混合采样算法研究

作者:陈丽芳; 代琪; 刘洋; 刘保相
来源:山西大学学报(自然科学版), 2020, 43(04): 776-785.
DOI:10.13451/j.sxu.ns.2020065

摘要

针对不平衡数据采样算法效率低及分类效果不理想等问题,提出一种基于三支决策的三支等价粒混合采样算法(3EG-HS)。利用二元关系粒化不平衡数据集,实现三支等价粒划分,形成正等价粒、不确定等价粒和负等价粒。采用马氏距离(Mahalanobis distance)剔除负等价粒中价值密度低的多数类样本,实现负等价粒欠采样。应用SMOTE算法对不确定等价粒中的少数类样本实施过采样计算,提升价值密度高的少数类样本比例。合并正等价粒、过采样不确定等价粒和欠采样负等价粒,形成新的混合采样数据集,降低数据集的不平衡比。仿真实验结果表明,与其他采样算法相比,该算法总体性能表现优秀,根据模型评价指标,不仅G-mean值在大部分数据集上提升了5%~10%,而且F-measure1在9个数据集上得到了提升,数量上明显多于其他方法。

全文