加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

AI算力生出IPU芯片,GPU霸主地位不保?

发布时间:2020-10-09 14:44:08 所属栏目:评论 来源:站长网
导读:在CPU 芯片领域,延续至今的“摩尔定律”正在随着制程工艺逼近物理极限而有了延缓的趋势,甚至失效的可能。就在摩尔定律的增长放缓脚步的同时,半导体芯片的计算也正在从通用走向专用,其中AI 计算正是其中增长最快的一种专用计算。 现在,AI 计算正在接棒

在CPU 芯片领域,延续至今的“摩尔定律”正在随着制程工艺逼近物理极限而有了延缓的趋势,甚至失效的可能。就在摩尔定律的增长放缓脚步的同时,半导体芯片的计算也正在从通用走向专用,其中AI 计算正是其中增长最快的一种专用计算。

现在,AI 计算正在接棒摩尔定律,延续并超越其倍增神话。2019 年,OpenAI 发布了 AI 算力的增长情况,结果显示 AI 算力以 3.4 个月的倍增时间实现了指数增长,从 2012 年起,该指标已经增长了 30 万倍。

在 AI 算力爆炸式增长的过程中,英伟达的 GPU 功不可没。广为人知的一个故事就是 2012 年,来自多伦多大学的 Alex 和他的团队设计了 AlexNet 的深度学习算法,并用了 2 个英伟达的 GTX580 GPU 进行训练后,打败了其他所有计算机视觉团队开发的算法,成为那一届 ImageNet 的冠军。

此后,在计算机视觉和自然语言处理领域,GPU 的高并行计算能力得到了充分的发挥,英伟达的 GPU 也随着 AI 第三次浪潮的崛起而迎来井喷发展。与此同时,更多为机器学习而专门定制的专用芯片开始出现,比如专用集成电路(ASIC)的张量处理单元 TPU、神经网络单元 NPU 以及半定制芯片 FPGA 等等。

2018 年底,英国一家名为 Graphcore 的创业公司推出了一种专门用于 AI 计算的处理器芯片IPU(Intelligence Processing Unit)。一经问世,IPU就受到 AI 界越来越多的关注。

AI算力生出IPU芯片,GPU霸主地位不保?

ARM 创始人,被称为英国半导体之父的赫曼·豪瑟曾为 Graphcore 的IPU给出很高评价,将其誉为“计算机史上三次革命中,继 CPU 和 GPU 之后的第三次革命”。赫曼在芯片产业的地位自然不容置疑,但由于 Graphcore 是英国芯片产业中为数不多的新生力量,难免赫曼有“护犊子”的打广告之嫌。

IPU 出道 2 年时间,现已推出了量产第二代型号为 GC2 的 IPU。那么,IPU 的表现如何,与 GPU 相比有哪些优势之处,这是本文要重点探讨的问题。

GPU 所开启的深度学习

一个广为人们熟知的例子就是,在计算机视觉发展初期的 2011 年,谷歌大脑想要在 YouTube 的视频中识别人类和猫,当时这样一个简单的任务,谷歌要动用一家大型数据中心内的 2,000 颗服务器 CPU,这些 CPU 的运行会产生大量的热量和能耗,关键是代价不菲,很少能有研究人员可以用得起这种规模的服务器。

AI算力生出IPU芯片,GPU霸主地位不保?

不过在当时,研究人员注意到了英伟达的 GPU,斯坦福大学的吴恩达团队开始和英伟达合作,将 GPU 应用于深度学习。后来证明,只需要 12 颗英伟达 GPU 就可以达到相当于 2000 颗 CPU 提供的深度学习性能。此后越来越多的 AI 研究人员开始在 GPU 上加速其深度神经网络 (DNN)的训练。

AI算力生出IPU芯片,GPU霸主地位不保?

现在我们都知道,GPU 能够在深度学习的训练中大显身手,正是源于 GPU 的计算架构正好适用于深度学习的计算模式。深度学习是一种全新的计算模式,其采用的 DNN 算法包含数十亿个网络神经元和数万亿个连接来进行并行训练,并从实例中自己学习规律。

深度学习算法主要依赖的基本运算方法有矩阵相称和卷积浮点运算,而 GPU 多核架构在原本图像渲染中可以大规模处理矩阵乘法运算和浮点运算,很好地可以处理并行计算任务,使得 DNN 训练速度大幅提升。

此后,GPU 成为辅助完成深度学习算法的主流计算工具,大放异彩。但 GPU 本身并非是专门为 AI 计算而设计的芯片,其中有大量的逻辑计算对于 AI 算法来说毫无用处,所以行业自然也需要专门针对 AI 算法的专用 AI 芯片。

近几年,全球已经有上百家公司投入到新型 AI 芯片的研发和设计当中,当然最终能够成功流片并推出商用的仍然是几家巨头公司和少数实力雄厚的独角兽公司。

这其中,2017 年初创成立的 Graphcore 所研发的 AI 芯片 IPU,则成为这些 AI 芯片当中的另类代表,因其不同于 GPU 架构的创新得到了业内的关注。而这正是我们要着重介绍的部分。

更适合 AI 计算的 IPU 芯片

近两年,AI 芯片出现了各种品类的井喷,其中甚至出现一些堪称疯狂的另类产品。

比如一家同样创立四年的 AI 芯片创业公司 Cerebras Systems 就发布了史上最大的半导体芯片 Wafer Scale Engine(WSE),号称“晶圆级发动机”,拥有 1.2 万亿个晶体管,比英伟达最大的 GPU 要大出 56.7 倍。这块芯片主要瞄准的是超级计算和和大型云计算中心市场,其创新之处在于一体化的芯片设计大幅提高了内部的数据通信数据,但其架构仍然类似于 GPU 的计算架构。

而 Graphcore 的 IPU 与 GPU 的架构差异非常大,代表的是一种新的技术架构,可以说是专门为解决 CPU 和 GPU 在 AI 计算中难以解决的问题而设计的。

AI算力生出IPU芯片,GPU霸主地位不保?

IPU 为 AI 计算提供了全新的技术架构,同时将训练和推理合二为一,兼具处理二者工作的能力。

我们以目前已经量产的 IPU 的 GC2 处理器来看,IPU GC2 采用台积电的 16nm 工艺,拥有 236 亿个晶体管,在 120 瓦的功耗下有 125TFlops 的混合精度,另外有 45TB/s 内存的带宽、8TB/s 片上多对多交换总线,2.5 TB/s 的片间 IPU-Links。

其中,片内有 1216 个 IPU-Tiles 独立处理器核心,每个 Tile 中有独立的 IPU 核,作为计算以及 In-Processor-Memory(处理器内的内存)。对整个 GC2 来说共有 7296 个线程(每个核心最多可以跑 6 个线程),能够支持 7296 个程序并行运行,处理器内的内存总共可以达到 300MB,其设计思路就是要把所有模型放在片内处理。

首先,IPU 作为一个标准的神经网络处理芯片,可以支持多种神经网络模型,因其具备数以千计到数百万计的顶点数量,远远超过 GPU 的顶点规模,可以进行更高潜力的并行计算工作。此外,IPU 的顶点的稀疏特性,令其也可以高效处理 GPU 不擅长的稀疏的卷积计算。其次,IPU 也支持了模型参数的复用,这些复用特性可以获取数据中的空间或时间不变性,对于训练与推理的性能会有明显帮助。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读