摘要

数据集存在多样性,导致样本点的密度难以有效度量且效率低下,多数基于密度的异常检测方法局限于局部密度的计算,使其无法适应复杂数据库的发展需求,因此提出一种基于核密度估计的离群数据挖掘方法OMDE。首先,为估计并度量样本点的密度,提出一种特定核函数,该函数更适合于估计样本的局部密度;然后提出了一种基于均值的邻域密度估计方法来度量样本点邻域的密度,同传统的邻域密度估计方法相比,它对邻域大小具有更强的鲁棒性。在此基础上,提出一种基于离群因子估计的离群数据挖掘算法,结合多尺度邻域的信息,对样本的异常因子进行局部和全局的细化,实现了复杂数据集上的离群检测。最后,采用人工合成数据集分析验证了参数对算法性能的影响,并通过3组不同的真实数据集,将OMDE与相关算法进行了比较,实验结果显示,OMDE算法在效率和准确性两个方面具有较大的优势。