摘要

本文基于主流AI模型分布式训练业务的实际情况,提出了AI训练集群系统的优化方法。应用GPUDirect RDMA、网络计算等技术设计了以业务数据为中心的AI集群架构,并提供了参考实践。

  • 单位
    中国信息通信研究院