摘要

离群点检测是数据挖掘和机器学习领域重要的研究方向之一,其目的是识别与其他样本表现显著不同的样本。本文提出了一种基于模糊邻域熵的多粒度离群点检测方法。首先,将模糊相似性引入邻域熵和相对熵,提出模糊邻域熵和相对模糊邻域熵的不确定性度量。其次,分析了模糊邻域熵和相对模糊邻域熵在逻辑和几何上的差异特性。最后,结合理想解法(TOPSIS)和多粒度序列提出了新的样本离群程度评判标准TFMME-OF(TOPSIS and Fuzzy Multigranulation Mixed Entropy-based Outlier Factor)。实验结果表明,该方法相较于其它同类方法有更好的离群点检测效果。