摘要

大数据系统的蓬勃发展催生了大数据基准测试的研究,如何公正地评价不同的大数据系统以及怎样根据需求选取合适的系统成为了热点问题.然而,应用领域的广泛性、数据类型的多样性和数据操作的复杂性使得大数据基准测试集的设计面临很大的挑战.现有的相关基准测试工作要么针对某一类特定的应用或软件栈,要么根据流行度主观地选择大数据负载,难以全面覆盖大数据的多样性和复杂性.针对现有工作的不足,文中讨论大数据评测基准需要满足的需求,并研制了一个跨系统、体系结构、数据管理3个领域的大数据基准测试开源程序集——BigDataBench.它覆盖5个典型的应用领域(搜索引擎、电子商务、社交网络、多媒体、生物信息学),包含结构化...