摘要
介绍了应用随机森林等机器学习算法预测家庭自用汽车保险客户续保意向的数据挖掘过程,包括数据采集和预测模型的建立、评估和优化。使用了具有K均值聚类的下采样方法处理不平衡数据,利用了模拟退火算法创建优化的决策树集。结果显示,不平衡数据经处理后建立的随机森林模型对正负类的预测正确率的几何平均值提高了56%,经优化后的模型对正负类的预测正确率都达60%以上,并且负类预测正确率大于正类预测正确率。同时,模型还给出分类概率,提出利用分类概率提前识别忠实客户、流水客户和摇摆客户并有针对性开展续保工作的方法。