摘要

为了降低原始数据中的勘误影响,提高数据质量,深入分析了常用的基于距离的异常点检测算法,提出了一种新的基于改进距离的异常点检测算法,舍去了传统算法中对DB(d,p)参数的设置。首先,为了解决终端的不确定性选择属性困难的问题,引入了"属性隶属度"的概念,简化了检测属性的选择方式;其次,为了解决由于数据分布不均匀而导致的检测准确率较低的问题,改进了常用的距离度量,并采用改进的加权距离进行计算,得到距离矩阵,通过分析计算距离的总值,给出了一种异常评价方法用来判断异常点的异常程度;最后,以股票交易数据进行实验,与传统基于距离和的检测算法进行比较,结果表明该改进算法在异常点检测的准确度方面具有明显的改善。