基于混沌工程的自动化故障实验系统

作者:魏星; 李京; 童飞帆
来源:小型微型计算机系统, 2022, 43(11): 2434-2441.
DOI:10.20009/j.cnki.21-1106/TP.2021-0252

摘要

分布式系统运行中可能发生网络分区、磁盘损坏等各种故障,混沌工程技术通过模拟故障场景提前测试系统面临故障时的表现,发现潜在风险并修复.现有混沌工程技术大多仅支持单机故障注入,少数支持故障编排但不支持实验中进行数据验证等操作,且以上两者的实验粒度仅限于指定IP机器,用户无法进行自动化、灵活的故障实验.针对上述问题,提出一种新的故障实验技术架构,支持含系统读写、数据验证操作的自动化故障编排实验,支持基于系统进程角色粒度的动态实验,并提供能力扩展支持数据验证等操作定制化.根据实现的自动化故障实验系统对不同分布式系统进行实验,结果表明该技术能提供基于角色粒度的自动化、灵活的故障实验能力.

全文