摘要
监测技术是保障云计算系统性能与可靠性的关键,管理员通过分析监测数据可以了解系统运行状态,从而采取措施以及早发现并解决问题.然而,云计算系统规模巨大,结构复杂,大量的监测数据需要搜集、传输、存储和分析,给系统带来巨大性能开销.那么,如何在提高故障检测的准确性和及时性的同时,减少监测开销成为亟待解决的问题.为了应对以上问题,该文提出一种基于自适应监测的云计算系统故障检测方法.首先,利用相关分析建立度量间的相关性,利用度量关联图选择关键度量进行监测;而后,利用主成分分析得到监测数据的主特征向量以刻画系统运行状态,进而基于余弦相似度评估系统异常程度;最后,建立可靠性模型以预测系统可能出现故障的时间,基于此动态调整监测周期.实验结果表明,该文所提出的方法能够适应云环境下负载的动态变化,准确评估系统异常程度,自动调整监测频率以提高系统在异常状况下故障检测的准确性与及时性,降低系统在正常运行过程中的监测开销.
-
单位计算机科学国家重点实验室; 中国科学院软件研究所