摘要
信息系统在执行过程中收集了大量的业务流程事件日志,模型发现旨在从事件日志的行为信息中发现流程模型为业务流程理解和改进提供事实依据。直接跟随活动关系(DF, Directly Follow Relation)作为事件日志中最基本的行为信息是模型发现算法的基础。根据是否考虑日志的DF频次特征,将已有模型发现算法分为考虑频次和不考虑频次两类。已有面向模型发现的日志采样方法注重于提高模型发现的效率,却损失了事件日志中DF频次信息,得到的样本日志在使用基于DF频次的模型发现算法时改变了原始日志的行为。因此,针对基于DF频次的模型发现算法,本文提出了一种面向行为不变性的日志采样方法,具体而言,该方法包括通过按比率选取轨迹变体及频次、计算轨迹的DF权重和基于集合覆盖采样三个阶段,使得样本日志包含的行为信息与原始日志一致。通过公开事件日志数据集上的实验分析表明,与已有的日志采样方法比较本文方法得到的样本日志能更准确地保留原始日志中的DF频次信息,从而确保更高的模型挖掘质量。
- 单位