摘要

针对某型地面测控系统连续一年加电的高可靠性设计需求,目前所采用的双机冗余方案缺少对系统软硬件状态异常因素的考虑,系统在长期运行过程中存在系统局部异常而无法触发双机切换从而导致冗余失效的可能性,这些异常主要包括任务STOP异常、CPU温度过高、CPU占用率过大、磁盘剩余空间过小以及IO状态异常等;针对这些问题,提出一种系统故障诊断与容错方法,对系统故障源进行了综合研究和分析;文章采用任务实时监测、最小二乘法以及哈希算法等关键技术和方法实现系统故障诊断与容错处理,经实际型号项目验证了一年连续加电工作正常,设计满足了系统对高可靠性需求的应用需求。

  • 单位
    北京航天测控技术有限公司