摘要

信息系统在执行过程中收集了大量的业务流程事件日志,流程发现旨在从事件日志中发现流程模型为改进提供事实依据。已有的流程发现方法在处理大规模事件日志时仍存在性能瓶颈,事件日志采样技术为提高流程发现的效率提供了一种有效方案。已有事件日志采样方法通常假定日志是同质的,即日志来源于或对应单一的业务流程。然而,考虑到业务流程的复杂性和动态变化,同一事件日志中的轨迹通常呈现出异质的特点,即日志来源于或对应多个行为差异的业务流程。在处理异质事件日志时,通过已有采样技术得到的样本日志存在精度低等问题。针对这一挑战,而事件日志轨迹聚类却能很好地处理这一问题。因此本文提出了一种面向异质事件日志的轨迹聚类采样框架,首先将事件日志通过轨迹聚类方法分解为一组同质的子日志,其次,通过已有采样方法对子日志进行日志采样,然后,将子日志对应的样本日志进行合并作为最终的样本日志,最后,从流程模型挖掘的角度对样本日志的质量进行评估。通过6个公开数据集的实验分析表明,本文方法为异质事件日志的高质量采样提供了一种有效的解决方案。