摘要
不平衡数据在信用评估、财务造假、医疗诊断等现实应用中广泛存在。在众多处理不平衡数据的算法中,SMOTE算法(synthetic minority over-sampling technique)应用最为广泛。为解决SMOTE算法在生成数据时会弱化数据的真实分布,同时考虑到本福特法则(Benford’s Law)在处理自然数据中可以弥补数据弱化这一特点,将SMOTE算法与Benford’s Law相结合,提出一种新的处理类别不平衡数据的算法(BL-SMOTE算法),以提高数据分布真实性和准确性。实验结果表明,BL-SMOTE算法分类效果优于SMOTE算法。同时,相比于逻辑回归、决策树、梯度提升树等,随机森林的效果更优。
- 单位