摘要

近年来,广义线性模型已被广泛用于车险定价,而一些研究结果显示机器学习在某些方面优于广义线性模型,但这些结果都只是基于某个单一数据集。为了更全面地比较广义线性模型与机器学习方法在车险索赔频率预测问题上的效果,对7个车险数据集进行了比较测试,包括深度学习、随机森林、支持向量机、XGboost等机器学习方法;基于相同的训练集,建立不同的广义线性模型预测索赔频率,根据最小信息准则(AIC)选取最优的广义线性模型;通过交叉验证调参获得机器学习最佳参数和模型。研究结果显示:在所有的数据集上XGboost的预测效果一致地优于广义线性模型;对于某些自变量较多、变量间相关性强的数据集,神经网络、深度学习和随机森林的预测效果比广义线性模型更好。