加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

不是GPU的IPU,为什么更值得英伟达警惕?

发布时间:2020-08-04 11:24:14 所属栏目:评论 来源:站长网
导读:2020年7月30日,MLPerf组织发布第三个版本MLPerf Training v0.7基准测试(Benchmark)结果。英伟达基于5月最新发布的A100 Tensor Core GPU构建的DGX SuperPOD系统在性能上打破了8个记录,这为不少想要打造比英伟达更好GPU的AI芯片公司增加了难度。 相比而

2020年7月30日,MLPerf组织发布第三个版本MLPerf Training v0.7基准测试(Benchmark)结果。英伟达基于5月最新发布的A100 Tensor Core GPU构建的DGX SuperPOD系统在性能上打破了8个记录,这为不少想要打造比英伟达更好GPU的AI芯片公司增加了难度。

相比而言,7月15日Graphcore发布的第二代IPU GC200更值得英伟达警惕。其中的原因,当然不是简单因为同为台积电7nm工艺的第二代IPU比英伟达A100 GPU晶体管密度大10%。

不是GPU的IPU,为什么更值得英伟达警惕?

而是,Graphcore的第二代IPU在多个主流模型上的表现优于A100 GPU,两者将在超大规模数据中心正面竞争。未来,IPU可能在一些新兴的AI应用中展现出更大的优势。

多维度对比GPU,IPU有最高100倍性能提升

目前,AI的应用主要还是集中在计算机视觉(CV)。就CV而言,以谷歌最新发布的EfficientNet模型的Benchmarks(基准测试)来看,推理性能IPU吞吐量可以达到GPU的15倍,训练也有7倍的性能提升。

不是GPU的IPU,为什么更值得英伟达警惕?

在ResNet的改进模型ResNeXt-101的推理中,IPU可以带来7倍吞吐量的提升,同时时延降低了约24倍。在ResNeXt-50模型的一个训练中,IPU的吞吐量比GPU提升 30%左右。

另外,在目前最流行的NLP模型BERT-Base中,进行推理时相同时延IPU可以有2倍的吞吐量,训练时间减少25%到36.3小时左右,同时可以降低20%的功耗。

不是GPU的IPU,为什么更值得英伟达警惕?

在概率模型中,IPU同样有优势,在MCMC的一个训练模型中,IPU比GPU有15倍的性能提升,缩短15倍的训练时间。在VAE的精度训练模型中,可以达到4.8倍的性能提升,缩短4.8倍的训练时间。

还有,目前比较受关注的销售预测和推荐模型。IPU在用在做销售数据分析的MLP模型训练中相比GPU有最高6倍的性能提升,在用于推荐的Dense Autoencoder模型训练性能有2.5倍提升。

不是GPU的IPU,为什么更值得英伟达警惕?

如果是在IPU更擅长的分组卷积内核中,组维度越少,IPU的性能优势越明显,总体而言,有4-100倍的吞吐量提升。

不是GPU的IPU,为什么更值得英伟达警惕?

IPU的三大技术突破

从IPU与GPU在当下AI应用的多个维度对比中,已经可以看到IPU的优势,这与Graphcore的计算、数据、通信三大关键技术突破密切相关。

Graphcore最新发布的第二代IPU Colossus Mk2 GC200算力核心从1216个提升到1472个独立的IPU-Tiles的单元,共有8832个可以并行执行的线程。In-Processor-Memory从上一代的300MB提升到900MB。每个IPU的Memory带宽为47.5TB/s。

还包含了IPU-Exchange以及PCI Gen4跟主机交互的一个接口;以及IPU-Links 320GB/s的一个芯片到芯片的互联。

不是GPU的IPU,为什么更值得英伟达警惕?

计算

选用三个典型的应用场景从计算层面对比第二代和第一代IPU,BERT-Large的训练有9.3倍性能的提升,3层BERT推理有8. 5倍的性能提升,EfficientNet-B3有7.4 倍的性能提升。第二代IPU相比第一代IPU有两倍峰值算力的提升,在典型的CV还有NLP的模型中,第二代IPU相比第一代IPU则展现出了平均8倍的性能提升。

不是GPU的IPU,为什么更值得英伟达警惕?

这样的性能提升很重要的是处理器内部存储从300MB提升到了900MB。Graphcore中国区技术应用总负责人罗旭对雷锋网表示,“我们在算力核心的微架构上做了一些调整,每个IPU-Tiles的性能本身就会更强,总体实现2倍的峰值性能提升。在有效算力方面,处理器内存储从300M提升到900M,可以为性能带来较大的提升。”

MK2 IPU增加的处理器内存储主要是用于供我们模型的激活、权重的一些存储空间。因为处理器内存储的程序所占的空间与第一代IPU基本相同,所以增加的供算法模型可用的权重和激活的有效存储容量有6倍以上。

不是GPU的IPU,为什么更值得英伟达警惕?

但是,300M的处理器内存储本身就挑战很大,提升到900M面临着怎样的挑战?罗旭指出,“要让MK2支持8000个超线程并行一起工作,并且保证其线性度和各方面性能都要好,这个是非常复杂的一个技术,我们是利用BSP这一套软件+硬件+编译的机制,来保障性能能够提升。软件层面主要的挑战是对新模式的支持,所以我们的软件Poplar SDK要不断迭代。“

如果对比英伟达基于8个最新A100 GPU的DGX-A100,Graphcore 8个M2000组成的系统的FP32算力是DGX-A100的12倍,AI计算是3倍,AI存储是10倍。价格上,IPU-M2000需要花费25.96万美元,DGX-A100需要19.9万美元。Graphcore有一定的性价比优势。

不是GPU的IPU,为什么更值得英伟达警惕?

如果从应用的角度,在EfficientNet-B4的图象分类训练中,8个IPU-M2000(在1U的盒子里集成4个GC200 IPU)的性能等同于16个DGX-A100,这时候就能体现出10倍以上的价格优势。

不是GPU的IPU,为什么更值得英伟达警惕?

不是GPU的IPU,为什么更值得英伟达警惕?

数据

数据方面,Graphcore提出了IPU Exchange Memory的交换式存储概念,相比英伟达当前使用的HBM技术,IPU- M2000每个IPU-Machine通过IPU-Exchange-Memory技术,可以提供近100倍的带宽以及大约10倍的容量,这对于很多复杂的AI模型算法是非常有帮助。

不是GPU的IPU,为什么更值得英伟达警惕?

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读