针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.