摘要

针对普通杠杆抽样倾向于抽取强影响点导致估计精度降低的问题,围绕强影响点的剔除方法和大数据的复杂特性展开分析,提出一种基于异常点诊断的大数据杠杆抽样方法。该方法结合了传统的异常点诊断方法以及DBSCAN聚类,可以准确、快速地识别强影响点,进而提高估计精度。数值模拟结果显示,相比于普通杠杆抽样,利用基于异常点诊断的杠杆抽样方法获得的抽样子集在估计中所得的均方误差较小,估计精度也更高。

全文