摘要
样本缺失是数据挖掘中常见的问题,一般将其看作完全随机缺失而忽略或采用等概率方式补齐。但有些样本缺失不是随机的,是选择行为的结果。本文将研究奖惩系统造成的非完全随机样本缺失问题,即保险实务中由于免赔额的引入造成的赔付数据缺失的问题。首先,结合保险背景,给出缺失数据模型新的解释;其次,给出对数变化和数据平移两方面的模型扩展,以便适应损失额一般为正值的特征和免赔额条款的影响;最后,基于一组货车的赔付数据,说明扩展后模型在车险定价中的可行性和实用性。本文首次将模型引入保险领域,并提出不可观测的索赔意向和存在非完全随机缺失的损失额的相关性分析;为改善模型实用性,对模型做对数变化和数据平移两方面的扩展;将数据零膨胀问题按成因分为两类:其分别由被保险人的索赔意向和保险公司免赔额条款两种因素引起,为后续保单基于免赔额条款定价做准备;证明了模型的一系列性质和定理;基于新建立的模型和一系列定理结果,结合车险数据,详细说明免赔额对赔付概率、均衡保费和弹性系数等的影响。
-
单位金融学院; 西南财经大学