摘要
【目的】关键性能指标(Key Performance Indicators,KPI,如页面访问量、页面访问延迟、服务器CPU利用率、路由器内存使用率、交换机吞吐量、服务器磁盘I/O等)异常检测作为快速故障发现和修复的基础,对快速发展的云计算技术服务越来越重要。【文献范围】本文广泛调研近年来国内外KPI异常检测的相关工作。【方法】对各发展阶段的KPI异常检测方法深入研究和分析,并挑选出13个代表性方法进行实验评估。【结果】总结整理了其一般性问题、挑战和框架,使用3家国内顶尖互联网公司收集到的KPI数据集从准确性、鲁棒性和效率三个方面评估了以上方法的性能。【结论】这些方法涵盖了基于统计的方法、有监督学习方法、半监督学习方法和无监督学习方法,并各有优劣性。本文的研究和分析为将来的研究人员快速、准确地选择最适合其场景的KPI异常检测方法提供了依据。
- 单位