摘要
高性能计算集群是求解大型计算问题的关键基础设施,不当的配置会降低集群的计算能效。面对规模日益增大集群,传统"命令式"配置方法难以快速准确地完成配置。为解决这个问题,借鉴"基础设施即代码"的思想,基于Puppet构建了一套面向高性能计算集群的配置管理方法。这套方法侧重描述集群的配置模型,借助git版本控制系统追溯模型变更,由模型驱动Puppet实施具体的配置操作。这套方法成功管理了节点数超过1 000的高性能计算集群,不仅将在线配置、离线配置、部署整个集群所需时间分别缩短到5 min、20 min、1 d,还提供了传统方法无法实现的变更追溯、测试环境隔离等特性,极大提高了管理员的工作效率。
- 单位