摘要

针对使用传统的基于图的方法进行离群点检测构造转移概率矩阵需要使用数据的整体分布,而容易忽略数据的局部信息,导致检测精度不高的问题以及使用数据的局部信息可能会导致“悬空链接”的问题,提出基于全息图平稳分布因子的离群点检测算法(HSDFOD)。首先,使用相似度矩阵自适应的获取每个数据点的邻居集合来构造局部信息图;然后,引入最小生成树构造一个全局信息图;最后,利用局部信息图和全局信息图融合为全息图构造转移概率矩阵进行马尔可夫随机游走,通过生成的平稳分布检测出离群点。在人工数据集A1~A4中,HSDFOD的精确率均高于SUO、SUOD、IForest、HBOS对比算法,AUC整体上也优于四个对比算法。在真实数据集中,HSDFOD的精确率均高于80%,AUC均高于SUO、SUOD、IForest、HBOS对比算法。因此,此离群点检测算法在离群点检测上有较好的应用前景。