摘要

企业员工在职及离职数据集往往具有高度非均衡的特点,因此使用传统支持向量机(Support Vector Machine, SVM)分类算法来对非平衡的企业员工数据集进行分类并进行离职预测时,往往会导致分隔超平面向少数类偏移,分类准确率不佳等情况。为解决以上问题,本文首先通过SMOTE过采样方法有效地减少数据集的非均衡性,针对SMOTE方法导致的过拟合问题,本文还提出了改进的代价敏感加权算法来SVM优化算法。通过某大型外企公司企业员工数据集进行的实验证明,相对于SVM及SMOTE-SVM算法,本文提出的改进算法在G-mean和F-measure上分别达到了99.08%和89.25%,分类准确度和性能都得到了较大提升,能有效地用于非均衡企业员工数据的分类及离职预测。