摘要

单一的离群点检测方法对所有数据采用同一种异常标准,无法综合考虑全局和局部信息,存在精度不足和效率低下等问题。为解决上述问题,提出一种融合孤立森林(iForest)和局部离群因子(LOF)的离群点检测方法(FSIF-HDLOF),即利用高效的iForest对原始数据集进行剪枝,再采用LOF对剪枝后的数据集进行更精确的检测。在剪枝及检测阶段,算法针对iForest和LOF的不足进行相应改进。结合数据点在剪枝及检测阶段的异常信息,定义加权融合公式来确定离群点。实验结果表明,FSIF-HDLOF实现了检测精度与效率的良好平衡,尤其在大数据量且低离群点比例的数据集上的检测精度优势较大。