使用自适应计算加速提升核心基础设施性能
此外,通过利用 Versal Premium ACAP 将数据流量与服务桥接并封装到行业标准的 OTN 封装程序中,这些器件也非常适合用于高速客户端接口卡(图 3)。Versal Premium ACAP 内部集成通道化以太网、Interlaken、112G 和 58G PAM4 GTM 收发器与 32.75G GTYP 收发器,提供每秒多太位容量。这些资源以专用硬 IP 的形式集成,既能获得 ASIC 级的功率效率,又能释放 ACAP 逻辑架构用于映射、开销和 SAR 功能。 图 3:2.4Tb/s 客户端接口卡。 兼容未来的 AI 加速 通过将异构计算引擎与高存储器带宽相结合,Versal Premium ACAP 在处理高难度工作负载(如使用神经网络开展图像分类或对象检测)时,性能显著优于 GPU。图 4 所示的是与领先 GPU 的性能比较,可以看到运行在 680x680 YOLOv2 模型上的对象检测速度在 ACAP Premium 器件上能提速高达 7.7 倍。 图 4:与 GPU 进行对比的对象检测性能。(NVidia 数据中心深度学习产品性能:https://developer.nvidia.com/deep-learning-performance-training-inference) 与 FPGA 和 MPSoC 架构相比,ACAP 另一个有助于简化加速器开发的引人瞩目的特性是预先构建的外壳程序,通过它能硬连接到片外接口,如以太网、PCIe Gen 5、DDR4 和光通信接口(图 5)。这种高效的云连接基础设施提供了多重优势,包括允许在设备启动时进行 CPU 主机和系统存储器通信、简化内核布局与时序收敛、简化加速器虚拟化。外壳程序便于设计人员将器件的内部逻辑架构更多地用于定制功能,否则就需要实现必要的基础设施,如存储器和 DMA 控制器。 图 5:预先构建的外壳程序基础设施简化了云连接,同时实现了速度与效率的双重提升。 外壳程序和角色架构帮助设计人员快速高效地在 Versal Premium ACAP 中实现先进的智能零售技术。ACAP 器件支持数据驱动的视频内容分析,帮助减轻损失,提供自动、实时、有助于采取措施的库存洞察,并提供可促进销售最大化的客户体验定制能力。使用 Versal Premium ACAP 能够在单个平台上托管视频分析解决方案,用于视频元数据的识别、提取和分类(图 6)。 图 6:智能零售视频分析加速器。 外壳程序提供了现成的连接与加密功能,而器件的 DSP 引擎和软件可编程计算内核可用于处理对象检测、图像分类以及视频编码、解码和缩放。而且能够在紧邻计算内核的地方提供最大 1Gb 的片上 SRAM,面向 AI 加速提供高达 123TB/s 的存储器带宽。通过消除 GPU 架构和基于 GPU 的架构所特有的存储器瓶颈与批次大小限制,分析加速器能够为 Resnet50 提供高达每秒 13,000 幅图像/秒的处理速度。 结论 消费者和企业界越来越看重数据的价值,与此同时客户也越来越依赖于即时服务交付,但复杂性、计算强度和带宽耗用成为瓶颈。ACAP 将高效的分布式异构计算引擎与高速互联融为一体,满足飞速增长的性能需求。通过综合运用硬 IP、预先构建的创新型连接外壳程序、可编程逻辑架构和软件可配置资源,ACAP 器件不仅能够助力提升性能,而且还能简化设计,同时提供兼容未来的灵活性。 作者:Mike Thompson,赛灵思 Virtex UltraScale+ FPGA 与 Versal Premium ACAP 高级产品线经理 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |