摘要

传统的smote算法应用于非平衡数据集研究领域,它可以将少数类样本按照一定的条件进行扩充,以达到让非平衡数据集中少数类样本和多数类样本达到平衡这一目的。但是它在对于边界元素的选择生成数据的时候具有盲目性,使得生成的新的数据降低少数类样本的质量。针对这种情况,提出了将马氏距离结合SMOTE算法的改进算法Maha-smote,让生成的新元素更加靠近样本集中心,提高生成的数据集的总体质量。本文分别使用传统SMOTE、Python的sklearn库中的SMOTE算法以及Maha-smote算法对所选用的3个不平衡数据集进行过采样数据预处理,然后使用决策树和高斯朴素贝叶斯GNB分类器对预处理后的数据集进行预测,选择F-Measure、AUC作为分类性能的评价指标,实验表明Maha-smote算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。