摘要

阐述Hadoop系统中的MapReduce框架已经无法完全满足数据处理的需求,而Spark在数据处理方面更加高效。Spark的运行需要依托于分布式计算平台,因此Hadoop平台中的HDFS分布式文件系统,以及集群资源管理器Yarn,为其运行提供了不可或缺的基础。探讨Hadoop大数据平台的创建与课程教学实践相融合,从而使大数据平台的应用更加完善。

全文