基于自编码器和密度的融合离群点检测算法

作者:林昕玥; 于炯*; 杜旭升; 理姗姗; 杨少智; 高杰
来源:东北师大学报(自然科学版), 2021, 53(01): 53-60.
DOI:10.16163/j.cnki.22-1123/n.2021.01.010

摘要

针对基于栈式自编码器的离群点(SAE)检测算法和基于密度的离群点(LOF)检测算法检测精度不高的问题,提出了将SAE算法和LOF算法相结合的SAE-LOF算法.该算法的核心是对单独的SAE算法和LOF算法加入"投票"思想,通过神经网络训练权重,计算SAE算法和LOF算法加权投票结果,进而检测离群点.首先,训练并测试SAE,得到SAE的重构误差;其次,通过LOF算法得到局部离群因子;再次,将SAE算法的重构误差和LOF算法的局部离群因子作为新的特征输入到神经网络,进行有监督的训练;最后,将测试集分别经过SAE算法和LOF算法,再输入到神经网络,输出值最高的若干样本被预测为离群点.将SAE-LOF算法与SAE算法、LOF算法、KNN算法、孤立森林算法进行了比较,结果表明:SAE-LOF算法的预测结果具有更高的精度、更低的错误率以及更高的AUC值.该算法显著提高了分类器的性能.

全文