摘要
为了解决大规模云存储系统中管理节点发生故障导致存储服务不可用的问题,建立了管理节点故障影响分析模型,提出了一种基于消息的管理节点动态自我恢复算法FRA-M.该算法通过基于负载均衡的元数据备份更新控制方法完成多个管理节点之间相互协作、透明接管和故障自我恢复.测试结果表明,FRA-M算法能够使得管理节点发生故障时自动进行切换,并且能够合理地分配资源达到良好的负载均衡状态.通过控制TCP超时时限、故障检测周期以及故障检测超时,能够使得FRA-M算法的性能保持在相对稳定的区间,随失效时刻的适应性也比较强.当管理节点发生故障时,FRA-M能够较好地保证存储服务可用性、数据可用性和数据可靠性.
-
单位解放军理工大学野战工程学院