加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

突破传统数据中心算力瓶颈,阿里自研AI集群论文入选体系结构顶会HPCA 2020

发布时间:2020-03-04 16:39:07 所属栏目:产品 来源:IT168
导读:2月22日-26日,计算机体系结构顶级会议HPCA 2020在美国加州圣地亚哥召开。 作为国内唯一有论文收录的企业,阿里巴巴此次有两篇论文入选,其中一篇名为《EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform》,

可以看到,Ring和HD算法在数据传输量上没有区别,都是2S;其中S是Message的大小。从通信次数角度看,Ring算法需要N-1个Step的通信,而HD算法只需要log2N个Step;其中N是参与节点个数。而Ring算法只需要N个连接,而HD算法需要N*log2N个连接。需要特别指出的是,HD算法的每个Step只需要N/2个连接。

结合HD算法的特性对BiGraph拓扑进行分析:BiGraph拓扑两层交换机之间存在N/2个物理链路,而HD算法每个step需要N/2个连接;而且,BiGraph拓扑两层交换机之间最短路径的确定性。基于此,EFlops设计了与BiGraph架构适配的通信算法Halving-Doubling with Rank-Mapping(HDRM),实现逻辑连接和物理链路之间的一一映射,完全消除网络拥塞,达到极致的通信性能。需要强调的是,若采用CLOS网络拓扑,EFlops系统的通信算法也同样适用,差异在于BiGraph有更优的组网成本。

 4. EFlops测试数据

实验结果表明:在64-GPU系统规模下,EFlops的HDRM算法小包(比如1KB Message)通信性能,是Ring算法的6倍;对大包(比如256MB Message),HDRM算法带宽比Ring高10Gbps。EFlops的HDRM算法性能受系统规模影响最小,体现出最好的规模扩展性。

image.png

延伸阅读:

  • 腾讯云上线首个小程序直播SaaS解决方案 适用企业直播场景
  • 浪潮中标某央企智能仓库数据中心硬件采购,助复工保生产
  • 跨国电信公司纷纷出售其数据中心业务

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!