摘要

当今,Hadoop已经成为了大数据存储和大数据挖掘的主要平台。虽然Hadoop平台通过分布式的机器集群来实现高性能的并行计算,但由于其由廉价主机组成,故当集群负载增大时,便不可避免地在某机器上出现瓶颈。针对此问题,提出一种基于信息增益的瓶颈检测算法,该算法通过计算各个资源的信息增益来检测集群的瓶颈资源。实验证明了该瓶颈检测算法具有可行性。