登录
免费注册
首页
论文
论文详情
赞
收藏
引用
分享
科研之友
微信
新浪微博
Facebook
分享链接
分布式AI训练实践
作者:宋庆春; 朱朋志; 郭亮
来源:
中国电信业
, 2021, S1: 92-100.
分布式AI训练
网络计算
系统级优化
无损网络
GPUDirect RDMA
摘要
本文基于主流AI模型分布式训练业务的实际情况,提出了AI训练集群系统的优化方法。应用GPUDirect RDMA、网络计算等技术设计了以业务数据为中心的AI集群架构,并提供了参考实践。
单位
中国信息通信研究院
相似论文
引用论文
参考文献