摘要
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法。首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果。然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度。再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点。最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理。人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率。
- 单位