摘要
客户流失是现代企业面临最困难的问题,对客户流失进行预测是电信业保留现有客户的最有效策略之一。电信客户数据集往往具有高维特征,选择重要特征并减少无关属性的数量可以提高模型的分类性能。针对客户流失数据集高维特征的问题,提出了一种混合的XGB-BFS特征选择方法。首先基于XGBoost的Fscore值对特征重要性排序来度量特征与目标变量之间的相关关系,然后使用序列后向搜索的方法依次删除重要性最低的特征,根据验证集的AUC值判断是否保留该特征,最后将选择的特征子集用于构建XGBoost客户流失预测模型。在电信客户流失数据集上的实验结果表明,该方法能够筛选出特征重要性较高的特征且删除了冗余特征,与基于递归特征消除的Logistic模型、基于Embedded的Adaboost和随机森林模型相比,具有良好的性能。
- 单位