摘要
基于邻域的离群点检测算法中,参数的选择与确定是一个重要的问题,不合理的参数选择导致算法的性能显著下降。为减少参数对于离群点检测的影响,提出了一种基于马尔科夫随机游走的两阶段离群检测算法,可以在不影响算法效率的基础上,有效降低参数对检测结果的影响。该算法首先采用均匀采样策略生成一系列三角剖分图,并引入移除规则得到节点的拓扑结构,从而获得由节点连通性定义的转移概率矩阵,有效减少了算法的计算量和运行时间;其次采用加权投票原则重新定义重启向量,并将不同图上得到的平稳分布向量的平均偏差值作为离群点分数,有效的提高了算法的准确性。最后,采用合成数据集以及UCI数据集,验证了本文算法与现有的算法相比有更高的准确率。
- 单位