摘要
相关子空间是一种与离群数据有关的属性集维集合,可有效地降低"维灾"的影响.本文利用高斯混合模型重新定义了相关子空间,并且给出了一种相关子空间的离群挖掘算法.该算法首先根据k近邻算法,确定数据集中各数据对象的局部数据集,并依据属性值的稀疏度生成全局的稀疏度矩阵,稀疏度矩阵有效地体现出数据的稀疏性和稠密性;其次,利用高斯混合模型和稀疏度矩阵,识别数据对象的相关子空间和不相关子空间,避免了不相关子空间对度量离群数据的影响;然后,在相关子空间中,利用数据对象每个维度的稀疏度和属性权值,计算数据对象的离群值,并选取离群值较大的若干个对象作为离群数据;最后采用人工和UCI数据集,实验验证了该算法的有效性.
- 单位