摘要

针对传统关联规则Apriori算法在挖掘关联规则时需多次扫描事务数据库,增加系统I/O、通信的开销等性能问题,进行了算法的改进,改进后的算法DApriori通过去除候选集并结合布尔矩阵方式来压缩存储事务数据,从而减少事务数据库的扫描次数,并借助Hadoop平台的MapReduce并行编程模式,实现DApriori算法并行化,简化了生成候选项的连接步骤,同时在计算的过程中对事务进行压缩,提高了运算速度,改善了算法的性能,最后通过实验进行对比分析表明改进后的并行算法能较好地降低挖掘频繁项集时的I/O和通信开销,具有高效性与良好的加速比.

  • 单位
    阳光学院