摘要

异常值检测方法研究是当今数据分析领域的一个热门问题。传统的基于模型的异常值检测方法,往往是先对模型中的参数进行估计,再检测异常值,但是异常值的存在会影响参数估计值,从而使得异常值检测结果不可靠。文章基于线性回归模型,引入异常值识别变量,提出线性均值漂移模型。在进行低维数据异常值检测时,对漂移项施加SCAD惩罚,利用坐标下降算法同时进行参数估计和异常值检测;在进行高维数据异常值检测时,对模型参数和异常值识别变量分别施加SCAD惩罚,利用坐标下降算法同时进行参数估计、变量选择和异常值检测。基于线性均值漂移模型,采用SCAD惩罚回归的思想设计坐标下降算法,消除了低维和高维数据中异常值的存在对参数估计带来的不利影响。

全文