摘要

为了提高对大量异构日志聚类和模式发现的能力,以便给故障预测模型等应用提供有效的日志模式。通过研究日志数据的特性,论文提出了一种面向Hadoop平台的快速日志模式发现方法,该方法采用One-Pass思想,通过扫描一次日志数据,完成对所有日志的聚类,并按顺序合并簇中的日志生成该簇的日志模式。在四个不同规模的日志数据集上进行了验证,实验结果表明该方法在确保聚类和模式发现的准确率的前提下,其内存开销和运行时间大大降低。