摘要
本文基于广义线性模型和数据驱动的分箱方法,对连续型自变量进行分箱处理,最终构建车险定价中的风险保费类别。本文数据来源于R软件包CASdatasets的法国三责险索赔频数数据集freMTPL2freq和索赔强度数据集freMTPL2sev。本文先运用R软件包mgcv,构建了一组索赔频数和索赔强度广义可加模型(GAMs)。再运用R软件包evtree,用进化树算法对连续型自变量进行分箱处理,将连续型变量转化为包含多个水平的分类变量。在此基础上,应用分箱处理得到的分类变量及其他分类变量,构造了另一组索赔频数和索赔强度广义线性模型(GLMs)。本文将由分箱后构造的GLMs和由分箱前构造的GAMs进行模型预测结果对比,发现GLMs和GAMs计算出的预测保费非常接近,而GLMs比GAMs更易直观解释。由此,本文研究得到了一个更简单直接的模型,可作为实务中更复杂车险定价模型的较好替代。
-
单位南开大学; 金融学院