利用局部敏感哈希提高隔离森林算法效率

作者:侯博文; 葛唯益; 纪建; 苗启广
来源:指挥信息系统与技术, 2020, 11(03): 22-28.
DOI:10.15908/j.cnki.cist.2020.03.004

摘要

离群点检测是机器学习的一个重要问题,对于信息系统而言,快速和准确地在异常故障发生前告警并确保系统稳定运行尤为重要。隔离森林(IForest)算法因其线性的检测时间复杂度而颇受青睐,但随着数据的不断生成以及对数据检测精度要求不断提高,IForest算法出现了检测精度低和不擅长处理局部相对稀疏点等问题。利用局部敏感哈希(LSH)方法对IForest算法进行改进,对空间分布数据进行预处理,将空间中最相似的数据分组到一个桶中,再将所有桶中样本用一个带权重的点取代,得到具有代表性的数据骨架样本点并进行隔离森林构建。试验结果表明,该改进算法性能在异常检测效率与精度方面均有提升。

全文