加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

如何利用稀疏性提高AI推理速度

发布时间:2020-08-18 17:40:43 所属栏目:动态 来源:站长网
导读:NVIDIA Ampere架构使数学运算速度加倍,为各种神经网络处理提速。 如果你玩过叠叠乐,那么就可以把AI稀疏性(sparsity)想象成是叠叠乐。 游戏参与者首先将积木块交错堆叠成一座积木塔。然后,每名玩家轮流取出一块积木,过程中玩家必须小心翼翼的,不能让

NVIDIA Ampere架构使数学运算速度加倍,为各种神经网络处理提速。

如何利用稀疏性提高AI推理速度

如果你玩过叠叠乐,那么就可以把AI稀疏性(sparsity)想象成是叠叠乐。

游戏参与者首先将积木块交错堆叠成一座积木塔。然后,每名玩家轮流取出一块积木,过程中玩家必须小心翼翼的,不能让积木塔倒塌。

游戏开始的时候,抽取积木很容易,但越往后进行就会变得越惊险,最后必定会有一名玩家在取出积木时碰倒整个积木塔。

多年来,研究人员们一直在研究如何通过稀疏性加速AI,其过程就像是在玩儿数字版的“叠叠乐”。他们尝试着尽可能多地从神经网络中抽出多余参数,同时又不破坏AI的超高精度。

这样做是为了减少深度学习所需的矩阵乘法堆,从而缩短取得准确结果的时间。但到目前为止,还没有出现“大赢家”。

过去,研究人员尝试了多种技术,抽出部分的权重甚至达到了神经网络的95%。但是,在整个过程中,他们所花的时间要远多于他们所节省的时间,而且他们还需要付出巨大的努力来弥补精简后的模型精度。此外,适用于一种模型的精简方法往往并不适用于其他模型。

但如今,这一问题得到了解决。

数字稀疏

NVIDIA Ampere架构为NVIDIA A100 GPU带来了第三代Tensor Core核心,其可以充分利用网络权值下的细粒度稀疏优势。相较于稠密数学计算(dense math),最大吞吐量提高了2倍,而且不会牺牲深度学习的矩阵乘法累加任务的精度。

测试表明,这种稀疏方法在许多AI任务(包括图像分类、对象检测和语言翻译)中使用,都能保持与使用稠密数学计算相同的精度。该方法还已在卷积神经网络和递归神经网络以及基于attention的transformer上进行了测试。

如何利用稀疏性提高AI推理速度

A100使用稀疏矩阵加速AI推理任务

内部数学加速能够对应用层面产生重大影响。A100 GPU可以利用稀疏性运行BERT(BERT是最新的自然语言处理模型),其运行速度比稠密数学计算快50%。

NVIDIA Ampere架构利用了神经网络中小值的普遍性,让尽可能多的AI应用受益。具体而言,该架构定义了一种可以减少一半权值(50%稀疏)来训练神经网络的方法。

少即是多,但前提是正确

一些研究人员使用粗粒度的剪枝方法从神经网络层中切断整个通道,这往往会降低网络精度。而NVIDIA Ampere架构中的方法采用了结构化稀疏和细粒度修剪技术,因此不会明显降低精度,用户可以在重训练模型时进行验证。

在将网络修剪到合适状态后,A100 GPU将自动完成其余工作。

A100 GPU中的Tensor Core核心能够有效地压缩稀疏矩阵以实现合适的稠密数学计算。跳过矩阵中的实际值为零的位置能够减少计算量,从而节省功耗和时间。压缩稀疏矩阵还可以减少占用宝贵的内存和带宽。

我们对稀疏性的支持是NVIDIA Ampere架构中的众多新功能之一,它将AI和HPC性能推向新的高度。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!