摘要

在基于近邻思想的离群点检测算法中,参数k的选择是无法避免的,而k值过大或者过小都会对检测效果产生很大的影响.因此,如何选择k值是近邻方法研究中的重要内容之一.本文提出一种个性化k近邻(Personalized k-Nearest Neighbor,PKNN)的离群点检测方法,其每一个数据点的近邻个数是由算法自动确定,而不需要人为指定.位于稠密区域的点具有更多邻居,而位于稀疏区域的点具有更少的邻居.因此,PKNN方法确定的个性化近邻参数,更符合数据集的直观分布.实验结果表明,与现有方法相比,PKNN算法有很好的离群点检测效果.