摘要
当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用。而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本。为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析。然而大多情况下系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需...
-
单位计算机体系结构国家重点实验室; 中国科学院计算技术研究所