摘要
对盈千累万且错综复杂的数据集进行分析,是一个非常具有挑战性的任务,检测数据中的异常值的技术在该任务中发挥着举足轻重的作用.通过聚类捕获异常的方式,在日趋流行的异常检测技术中是最为常用的一类方法.文中提出了一种基于二阶近邻的异常检测算法(anomaly detection based second-order proximity, SOPD),主要包括聚类和异常检测两个阶段.在聚类过程中,通过二阶近邻的方式获取相似性矩阵;在异常检测过程中,根据簇中的点与簇中心的关系,计算聚类生成的每一个簇中的所有的点与该簇中心的距离,捕捉异常状态,并把每个数据点的密度考虑进去,排除簇边界情况.二阶近邻的使用,使得数据的局部性以及全局性得以被同时考虑,进而使得聚类得到的簇数减少,增加了异常检测的精确性.通过大量实验,将该算法与一些经典的异常检测算法进行比较,结果表明, SOPD算法整体上性能较好.
- 单位