AI算力生出IPU芯片，GPU霸主地位不保？

发布时间：2020-10-09 14:44:08 所属栏目：评论来源：站长网

导读：在CPU 芯片领域，延续至今的“摩尔定律”正在随着制程工艺逼近物理极限而有了延缓的趋势，甚至失效的可能。就在摩尔定律的增长放缓脚步的同时，半导体芯片的计算也正在从通用走向专用，其中AI 计算正是其中增长最快的一种专用计算。现在，AI 计算正在接棒

其次，为解决芯片内存的宽带限制，IPU 采用了大规模并行 MIMD（多指令流多数据流）众核架构，同时，IPU 架构做了大规模分布式的片上 SRAM。片内 300MB 的 SRAM，相对于 GPU 的 GDDR、HBM 来说，可以做到数十倍的性能提升，而且与访问外存相比，SRAM 的片内时延基本可以忽略不计。

第三，IPU 采用了高效的多核通信技术 BSP（Bulk Synchronous Parallel）。IPU 是目前世界上第一款采用 BSP 通信的处理器，支持内部 1216 个核心之间的通信以及跨不同的 IPU 之间的通信。通过硬件支持 BSP 协议，并通过 BSP 协议把整个计算逻辑分成了计算、同步、交换，能极大方便工程师们的开发工作。

基于以上 IPU 的差异化特点，IPU 在某些批量训练和推理中能够获得更好的性能、更低延时和更快网络收敛。片内的 SRAM 相对于片外存储，也有高带宽和低延时的优势。

今年 7 月，Graphcore 发布了二代的 Colossus MK2 IPU (MK2)，以及包含四颗 MK2 芯片系统方案的 IPU-Machine：M2000 (IPU-M2000)，其核心数增加了 20%，达到 1472 个，8832 个可并行执行的线程。片内 SRAM 则多出 3 倍，增加到 900MB，互联扩展性能是上一代的 16 倍。显然在计算、数据和通信扩展层面，MK2 都算是延续了第一代 IPU 堆料狂魔的作风。

AI算力生出IPU芯片，GPU霸主地位不保？

由 4 个 IPU 芯片构成的 IPU-M2000 系统，可以提供大约 1 PetaFLOPs 的算力。基于 IPU 的多层级存储结构，与 IPU Exchange Memory 等技术优化，整体与 GPU 的 HBM2 存储比较，可以提供超过 100 倍的带宽以及大约 10 倍的容量，可以适用于更复杂的 AI 模型和程序。

AI算力生出IPU芯片，GPU霸主地位不保？

计算加上数据的突破可以让 IPU 在原生稀疏计算中展现出领先 GPU 10-50 倍的性能优势，在通信上，Graphcore 专为为 AI 横向扩展设计了 IPU-Fabric，解决数据中心大规模计算横向扩展的关键问题。Graphcore 将计算、数据、通信三者的突破技术结合，构建了大规模可扩展的 IPU-POD 系统，最终可以提供一个 AI 计算和逻辑进行解耦、系统易于部署、超低网络延时、高可靠的 AI 超算集群。

可以预计，未来 IPU 在各类 AI 应用中将具有更大的优势，而这也必然会引起英伟达的注意。那么，相较于英伟达 GPU 所占据的 AI 行业生态位的霸主地位，IPU 会有哪些前景，也会遭遇哪些困境呢？

走向通用 AI 计算的“另辟蹊径”

如果回顾下 AI 芯片的发展经历，我们看到在经过这几年专用 AI 芯片的井喷之后，也开始面临一个尴尬困境，那就是 ASIC 芯片的灵活性或者说可编程性很差，对应的专用 AI 芯片只能应对一种算法应用，而算法本身则在 3-6 个月的时间就有可能变化一次，或许出现很多 AI 芯片还未上市，算法就已经发生进化的问题，一些 AI 芯片注定无法生产。当然，专用 AI 芯片的优势也很明显，在性能、功耗和效率上远胜更加通用的 GPU，对于一些非常具体的 AI 应用场景，这些专用芯片就具有了巨大的收益。

从专注图像渲染崛起的英伟达的 GPU，走的也是相当于 ASIC 的技术路线，但随着游戏、视频渲染以及 AI 加速需要的出现，英伟达的 GPU 也在向着 GPGPU（General Purpose GPU）的方向演进。为保持其在 GPU 领域的寡头地位，使得英伟达必须一直保持先进的制程工艺，保持其通用性，但是要牺牲一定的效能优势。

这给后来者一定的启发，那就是 AI 芯片既要具备一定的灵活的可编程性（通用性），又要具备专用的高效性能优势。这为 IPU 找到了一个新的细分市场，也就是介入 GPU 不能很好发挥效能的神经网络模型，比如强化学习等类型，同时又避免的专用 AI 芯片的不可扩展性，能够部署在更大规模的云计算中心或超算中心，对新算法模型保持足够的弹性计算空间。

目前来看，IPU 正在成为仅次于 GPU 和谷歌 TPU 的第三大部署平台，基于 IPU 的应用已经覆盖包括自然语言处理、图像 / 视频处理、时序分析、推荐 / 排名及概率模型等机器学习的各个应用场景。

典型的如通过 IPU 可以训练胸片，帮助医学人员快速进行新冠肺炎的诊断；如在金融领域，对涉及算法交易、投资管理、风险管理及诈骗识别的场景进行更快的分析和判断；此外在生命科学领域、通信网络等方面，都可以同 IPU 实现高于 GPU 性能的 AI 加速。

AI算力生出IPU芯片，GPU霸主地位不保？

（NLP 模型参数的指数增长）

当然，IPU 想要在 AI 计算中拥有挑战 GPU 地位的资格，除了在性能和价格上面证明自己的优势之外，还需要在为机器学习框架提供的软件栈上提供更多选择，获得主流 AI 算法厂商的支持，在标准生态、操作系统上也需要有广泛的支持，对于开发者有更方便的开发工具和社区内容的支持，才能从实际应用中壮大 IPU 的开发生态。

今年， AI 芯片产业正在遭遇洗牌期，一些 AI 芯片企业黯然退场，但这并不意味着 AI 计算遭遇寒冬，反而 AI 算力正在得到大幅提升，以今年数量级提升 GPT-3 的出场就可以看出这样的趋势。

一个 AI 芯片从产出到大规模应用必须要经过一系列的中间环节，包括像上面提到的支持主流算法框架的软件库、工具链、用户生态等等，打通这样一条链条都会面临一个巨大挑战。

现在，GPU 已经形成一个非常完整的 AI 算力生态链路，而 IPU 则仍然在路上，是否能真正崛起，还需要整个 AI 产业和开发者用实际行动来投票。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页

社区团购仍然一团浆糊	复盘 5G时代，中国时刻
iOS15.2Beta4现已推送	低调中爆发？165W+骁龙