摘要
数据自表示方法可以用于离群点检测,起到了放大数据间差异性和关联性的作用,但现有技术未能体现特征之间关联性对离群点检测的影响,因此无法用于高维数据。针对这个问题,提出了一种基于融合数据自表示的离群点检测算法,它可以有效地检测出高维数据中的离群点。首先,提出了一种基于特征关系的数据自表示方法,结合互信息与信息熵理论,度量高维数据特征间的关联性,并将其融于数据间的稀疏表示过程,体现了特征间和数据间的复杂关系。其次,提出了一种基于融合组间数据自表示的计算方法,采用点乘的方式将不同特征分组对应的自表示矩阵融于一体,形成全局数据自表示矩阵。最后,提出基于融合数据自表示的离群点检测算法,在全局数据自表示矩阵形成的有向加权图上,通过图随机游走检测离群点。实验结果表明,该算法在真实数据集和人工合成数据集上的检测性能均高于对比算法,证明该算法具有良好的泛化性和稳定性。
- 单位