摘要

运用机器学习和大数据技术,提供了一种对分布式系统(集群)的健康度进行实时自动化评价的方法,通过异常检测、故障预测等技术手段,量化评价集群整体和各个节点的运行情况,为集群故障处理提供指引,使得运维人员可以根据该评价结果对集群执行手动、半自动或全自动的运维操作。