摘要

论文针对传统海量关系数据去重处理技术的局限性,选取上下线日志数据这种典型关系数据为研究对象,采用基于MapReduce的海量关系数据去重处理技术,对海量关系数据进行并行处理,并对该平台实现进行了论述。通过对Map阶段进行归并产生的中间结果实现数据共享,且在Reduce阶段重写partition的方式解决海量去重堆内存溢出的问题。最后通过实验对比不同海量关系数据处理的效率,验证了MapReduce技术在处理海量关系数据的高效性。

  • 单位
    武汉邮电科学研究院