摘要

随着高性能计算资源需求的不断增长,大型高性能计算集群的建设越来越多,但大型高性能计算集群建设不同于传统的数据中心建设。由于高性能计算集群的高密度属性,其在机房设计、运营管理等方面都与传统的数据中心有着很大不同。结合南京大学两套大规模计算集群的建设经验,对集群建设过程中涉及的主要问题进行了总结,其中包括机房选择、软硬件选型等方面的问题,并在运营管理等方面进行探讨,为进一步提高国内高校大型高性能计算平台的建设提供一些参考。