摘要
随着IT技术的快速发展和数据的爆炸式增长,数据中心的IT设备高度集中,各类硬件、系统和应用软件故障不可避免,IT设备的运维压力持续增大。各类设备在运行过程中,产生了大量的系统运行日志。在传统模式中,当系统安全性和应用程序异常时,运维管理人员通过分析日志去查找和定位故障信息,这种方法费时费力,且具有滞后性。针对这种情况,必须尽快实现实时自动分析日志,快速定位故障,减少对用户的影响。本文采用一种基于日志分析的智能告警技术,能够实时高效的分析日志,并且及时地发现系统故障和应用软件问题,通过预先定义的告警项、触发器、故障动作等,做到实时预警、故障恢复或用户自定义的其他动作,可以最大限度地做到大部分的系统和应用软件故障自动恢复,从而有效提升数据中心故障处理的时效性。