基于Spark的并行分布式过程挖掘算法

作者:胡小强; 吴翾; 闻立杰*; 王建民
来源:计算机集成制造系统, 2019, 25(04): 791-797.
DOI:10.13196/j.cims.2019.04.001

摘要

针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为活动关系矩阵。然后利用关系矩阵,按算法原本的后续步骤,挖掘出过程模型。利用Spark实现分布式α-Mine算法和分布式Flexible Heuristic Miner算法,结果表明:所提方法在时间消耗上优于目前最好的算法,挖掘效率明显提升。

全文