摘要

数据挖掘技术是解决数据丰富而知识贫乏的有效途径,离群数据挖掘是数据挖掘领域中的重要研究内容之一,己广泛应用于网络入侵检测,信用卡诈骗,垃圾邮件的分析和基因突变分析等领域.在高维海量数据中,由于数据量大和维度高,严重影响了离群数据挖掘的精度和效率.本文在KNN基础上,通过定义"解集"的概念,在MapReduce编程环境下,实现了一种基于距离的离群数据挖掘算法.分别采用人工数据集和UCI数据集,实验验证了该算法在不同条件下,参数对算法性能的影响.