介绍了一种用于Hadoop集群自动化监控、预警系统的实现。通过获取集群节点的内存、CPU、磁盘信息统计节点系统信息,同时统计集群各类Hadoop基础服务的基础信息,如服务的内存使用、存活状态等。系统对收集的信息做异常信息处理与告警,自动推送给系统运维,极大提高了运维的响应速度,缩短问题定位、解决周期。