摘要

随着服务的全球化,不同的公司或者公司的各个部门不断地产生海量的数据,并需要对这些分布在各个地点的数据进行分析.传统的方法是将所有数据移动到单个集群,但由于网络资源短缺和对数据处理的需求(如低延迟)等限制,传统方法是低效甚至不可行的.在分布式的场景下使用MapReduce进行分布式计算是一个富有挑战性的问题.首先,如何在选择的地理分布式数据中心之间分配数据以降低通信成本;然后,如何配置虚拟机以达到高性能和低成本;最后,如何选择合适的数据中心作为Reducer.通过考虑MapReduce过程中Map和Reduce两个阶段的成本(例如,宽带、存储、计算),建立成本最小化的优化模型,将数据移动、资源分配和Reducer选择的成本优化问题建模为一个随机整数非线性优化问题,并设计了高效的算法.验证了所提出算法的有效性,并与其他具有代表性的方法作对比.

  • 单位
    福建水利电力职业技术学院