加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

不是GPU的IPU,为什么更值得英伟达警惕?

发布时间:2020-08-04 11:24:14 所属栏目:评论 来源:站长网
导读:2020年7月30日,MLPerf组织发布第三个版本MLPerf Training v0.7基准测试(Benchmark)结果。英伟达基于5月最新发布的A100 Tensor Core GPU构建的DGX SuperPOD系统在性能上打破了8个记录,这为不少想要打造比英伟达更好GPU的AI芯片公司增加了难度。 相比而

计算加上数据的突破可以让IPU在原生稀疏计算中展现出领先IPU 10-50倍的性能优势。在数据以及计算密集的情况下,GPU表现非常好,但是随着数据稀疏性的增强,到了数据稀疏以及动态稀疏时,IPU就有了比GPU越来越显著的优势。

Graphcore高级副总裁兼中国区总经理卢涛说:“现在一些全球领先的研究,像NLP方面,大家开始来探索一些像sparse NLP的算法模型。我们的技术对很多超大规模的AI模型非常有帮助。”

不是GPU的IPU,为什么更值得英伟达警惕?

通信

通信也是目前数据中心大规模计算非常关键的问题。为此,Graphcore专为为AI横向扩展设计了IPU-Fabric。IPU-Fabric可以做到2.8Tbps超低延时的结构,同时最多可以支持64000个IPU之间的横向扩展。

卢涛介绍,IPU-Fabric是由三种网络一起组成,第一种是IPU-Link,第二种叫IPU Gateway Link,第三种是IPU over Fabric。IPU-Link是在一个机架(rack)之内提供在IPU之间的一个通讯的接口。IPU Gateway Link提供了机架和机架之间横向扩展之间的网络。IPU over Fabric能够把IPU的集群和x86的集群进行非常灵活以及低延时、高性能组合起来的网络。

不是GPU的IPU,为什么更值得英伟达警惕?

将计算、数据、通信的突破结合在一起,就可以用于构建大规模可扩展的IPU-POD系统。一个用于超算规模的IPU-POD的形态是一个IPU-POD64,这是IPU-POD的一个基本组件,每个IPU-POD64的机柜里面总共有64颗IPU,提供16PFlops的算力、58GB的In-Processor-Memory,总共达到了7个TB的流存储。

不是GPU的IPU,为什么更值得英伟达警惕?

因此,在IPU-POD中间非常重要的是把AI的计算跟逻辑的控制进行了解耦,让系统易于部署,网络延时非常低,能够支持非常大型的一个算法模型,以及非常安全的多住户的使用。

卢涛表示,“IPU-Fabric最高支持64000个IPU-POD组成的集群,总共能提供16 EFlops FP16的算力。日本前一阵发布的超算是0.5 EFlops算力。而我们基于64000个IPU总共可以组建16个EFlops算力,这非常惊人。”

Graphcore为什么值得英伟达关注?

“目前超大规模IPU-POD技术主要的应用场景还是大规模AI训练,包括自然语言处理以及机器视觉的应用,IPU-POD都有优势。”卢涛指出,“譬如说做一个模型的训练, GPU的性能是1,可能一个单机有8张卡,性能比0.7高。但如果把场景扩展到1000个GPU或者几千个GPU,性能可能会下降到0.7、0.6,好一点可能到0.8,而超大规模的IPU-POD很重要的是要帮助大家解决大规模集群可扩展性的问题。

另外,从功耗的角度看,不同的场景会有一些差别。总体来看,单片 M2000 的整机系统功耗为 1.1KW,折合到每颗IPU处理器的性能功耗比 0.9TFlops/W,在同类面向数据中心高性能AI计算的产品中,比A100 GPU的0.7TFlops/W,华为Ascend 910的 0.71TFlops/W的能效比都高一些。

也就是说,在大规模数据中心,Graphcore将会与英伟达进行正面的竞争。雷锋网(公众号:雷锋网)认为,相比于来自类GPU的竞争,英伟达不应该忽视Graphcore的IPU,特别是Graphcore一直都在强调其是为AI而生,面向的应用也是CPU、GPU不那么擅长的AI应用。

不是GPU的IPU,为什么更值得英伟达警惕?

这从Graphcore的软件以及生态建设中也能看出。IPU作为一款通用处理器能够同时支持训练和推理也提供统一的软件平台。最新的POPLAR SDK1.2有三个特性:第一,会与比较先进的机器学习框架做好集成。第二,进一步开放低级别的API,让开发者针对网络的性能做一些特定的调优。第三,增加框架支持,包括对PyTorch和Keras的支持,还优化了卷积库和稀疏库。

另外,通过支持全面的开发框架的三个主流操作系统ubuntu、RedHat、CentOS,降低开发者的使用难度,同时通过进一步开放低级别API,开源POPLAR PopLibs源代码。这些工作,正是想要让开发者利用IPU去创新,在新的应用领域构建IPU的竞争优势。

不是GPU的IPU,为什么更值得英伟达警惕?

更进一步,Graphcore面向商业用户、高校及研究机构、个人开发者都提供不同时长的免费IPU使用。在国内,Graphcore IPU开发者云部署在金山云上,这里面使用了三种IPU产品,一种是IPU-POD64,还有浪潮的IPU服务器(NF5568M5),以及戴尔的IPU服务器(DSS8440)。

雷锋网了解到,目前申请使用Graphcore IPU开发者云的主要是商业用户和高校,个人研究者比较少。

IPU开发者云支持当前一些最先进和最复杂的AI算法模型的训练和推理。比如,高级计算机视觉类主要以分组卷积为代表的一些机器视觉的应用模型,像ResNeXt、EfficientNet等。基于时序分析类的应用,像LSTM、GRU等大量应用在自然语音应用、广告推荐、金融算法等方面的模型。排名和推荐类像Deep Autoencoder,在概率模型方面,基于MCMC的一些算法交易的模型方面都有非常好的一些表现。

不是GPU的IPU,为什么更值得英伟达警惕?

卢涛表示:“Graphcore找到了自己的赛道,我们首要思考的是IPU如何帮助客户与合作伙伴解决他们目前使用CPU或者GPU上解决不了的问题。从全球看,我们最快落地的应用还是在超大规模数据中心,在金融、医疗健康领域进展非常大。”

还有一个影响IPU大规模商用非常关键的问题,片内存储高达900M的第二代IPU良率的成本如何?卢涛对雷锋网表示,“成本分为几个部分,包括人员、工具、IP、流片成本。所以要考虑两个部分。第一部分,芯片生产的BOM成本,这部分基本是固定的。所以,第二部分的良率就是非常重要,我们从第一代产品到第二代产品都采用分布式存储架构,就会非常好地控制产品的良率,所以即使是900M处理器内存储,也不会对成本产生特别大的影响。”

不是GPU的IPU,为什么更值得英伟达警惕?

已经有多家云合作伙伴的Graphcore,正在通过硬件以及软件打造起中国创新社区来发展生态,接下来通过与OEM、渠道合作伙伴的合作,将会如何与英伟达竞争呢?


(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读