基于BL-SMOTE和随机森林的不平衡数据分类

作者:张宸宁; 李国成*
来源:北京信息科技大学学报(自然科学版), 2019, 34(02): 23-28.
DOI:10.16508/j.cnki.11-5866/n.2019.02.006

摘要

不平衡数据在信用评估、财务造假、医疗诊断等现实应用中广泛存在。在众多处理不平衡数据的算法中,SMOTE算法(synthetic minority over-sampling technique)应用最为广泛。为解决SMOTE算法在生成数据时会弱化数据的真实分布,同时考虑到本福特法则(Benford’s Law)在处理自然数据中可以弥补数据弱化这一特点,将SMOTE算法与Benford’s Law相结合,提出一种新的处理类别不平衡数据的算法(BL-SMOTE算法),以提高数据分布真实性和准确性。实验结果表明,BL-SMOTE算法分类效果优于SMOTE算法。同时,相比于逻辑回归、决策树、梯度提升树等,随机森林的效果更优。

全文