摘要

针对孤立森林通过随机选择属性进行数据空间分割,在面对高维数据时具有不可靠性这一问题,提出了一种基于高对比度子空间的改进孤立森林算法(high contrast subspace isolation forest, HiForest)。首先,该方法基于子空间各属性边缘概率与联合概率间的偏差值,选取具有高对比度值的子空间;其次,在相关子空间中构建离群点检测能力更优的隔离树,多棵隔离树集成为隔离林,通过遍历数据点在隔离森林中的平均路径长度从而得到异常分数。基于ODDS数据集的实验表明,与传统的异常检测算法相比,HiForest在曲线下面积、查准率、召回率和F1-score评价指标上均有较明显的提升。因此,HiForest算法是一种适用于中高维数据集,检测精度更高的异常检测算法。

全文