摘要
现行异常点检测方法多是运用单窗口聚类检测,难以实时检测连续数据流中的异常点,易产生异常点误判,查准率和查全率较低。针对上述问题,提出基于多窗口机制的高维大数据流连续异常点检测方法。运用时间序列和滑动窗口对高维的在线监测连续数据流进行筛选,对筛选后的候选异常数据添加时间和类型标签,采用K-means聚类方法对带有时间标签候选异常数据集进行首次聚类检测,获得潜在异常点集合。采用近似度机制对正常点簇进行归属查找,排除异常误判,利用局部密度机制对首次聚类检测获得的异常点进行归类,再次精确排除可能的正常数据点。采用时间权值统计多个滑动窗口的检测结果获得最终异常数据点集合。实验结果表明,所提方法相比当前异常点检测方法,有效提高了连续数据流异常点的查准率和查全率,降低了误报率。
-
单位晋中学院