摘要
近年来,我国车险市场巨大的体量也催生了许多车险欺诈案件,然而传统的车险欺诈识别手段效率不佳,本文采用机器学习的方法,基于包含中国在内的四个数据集进行了实证分析,以比较六种主流机器学习方法对车险欺诈的预测表现以及预测表现的稳健性。本文对四个原始数据集进行数据分割,使原数据集分为训练集和测试集,训练集用于构建机器学习模型,测试集用于评估机器学习模型的效果,从而评估各机器学习方法的预测表现以及预测表现的稳定性。首先基于特征空间采用SMOTE采样法,使训练集中的欺诈样本数与非欺诈样本数达到平衡。之后采用10折交叉验证法选取最佳的参数组合来确定机器学习中的最优调节参数,并采用ROC曲线及曲线下方的面积AUC作为模型预测效果的评估标准,以避免主观选取截断点造成的影响。最终,研究发现极端梯度提升决策树模型和随机森林模型的预测表现以及预测表现的稳定性较好。