摘要

大数据技术的快速发展,现有的离群挖掘算法效率可能显著下降甚至不适用。Spark内存计算可以有效地降低I/O成本,并能提高数据分析和处理的效率。使用Spark内存计算平台,提出了一种离群数据并行挖掘算法,目的是在Spark这样的大数据平台上对传统离群挖掘算法进行并行化,从而提高性能。最后以UCI数据集作为实验数据集对算法进行了验证,实验结果表明,基于Spark平台的离群数据并行挖掘算法具有良好的可伸缩性和可扩展性。

  • 单位
    晋中学院