基于集成方法的离群点检测算法研究

作者:寇小东; 宋科健
来源:电子世界, 2020, (06): 57-58.
DOI:10.19353/j.cnki.dzsj.2020.06.033

摘要

<正>为了更好的应对复杂情况的离群点检测,本文提出了一种基于集成方法的离群点检测算法。本算法采用两种集成方式的级联模式,第一阶段的集成方式采用并列集成的方式,KNN、iFores、DBSCAN作为基分类器,进行模型融合得到第一阶段的分类结果。第二阶段采用序列集成的方式,根据第一阶段得到的权重对数据进行权重值调整,进而实现数据集再分布,再用残差逼近的方式得到最终的离群点检测结果。通过实验结果对比,由于本算法达到了方差和偏差的平衡,检测效果明显优于常见的离群点检测算法。Hawkins给出的离群点定义为:离群点是数据集中与众不同的数据点,其表现与其他点如此不同,以至于使人怀疑这些数据这些数据并非随机的偏差,而是由另外一种完全不同的机制所产生的。常见的离