加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 模式 > 正文

深度学习模型并非“越大越好”,它可能引起气候变化问题

发布时间:2020-06-23 15:21:24 所属栏目:模式 来源:科技行者
导读:本月早些时候,OpenAI宣布已经建成史上最大的人工智能模型,该模型规模惊人,被命名为GPT-3,是一项令人印象深刻的技术成就。然而,它却凸显了人工智能领域的一个隐患。 现代人工智能模型需要消耗大量能量,并且这些能量需求正以惊人的速度增长。在深度学

本月早些时候,OpenAI宣布已经建成史上最大的人工智能模型,该模型规模惊人,被命名为“GPT-3”,是一项令人印象深刻的技术成就。然而,它却凸显了人工智能领域的一个隐患。

现代人工智能模型需要消耗大量能量,并且这些能量需求正以惊人的速度增长。在深度学习时代,产生一流的人工智能模型所需的计算资源,平均每3.4个月翻一番;这意味着,能量需求在2012年至2018年之间增加了300,000倍。而“GPT-3”只是这种指数级增长轨迹上的一个最新节点。


深度学习模型真的越大越好吗?

在今天,人工智能的碳足迹是有意义的,而如果这个行业趋势继续下去,情况将很快变得糟糕得多。除非我们愿意重新评估并改革当今的人工智能研究方向,否则,人工智能领域可能会成为我们在未来几年中应对气候变化的对手。

GPT-3很好地说明了这种现象。该模型包含多达1750亿个参数。如何理解这个数字呢?不妨参考一下它的前身模型GPT-2,它在去年发布时被认为是最先进的,GPT-2只有15亿个参数。去年GPT-2的训练耗费了数十千兆次/天,这个计算输入的数量已经非常庞大了,而GPT-3需要的数量可能是GPT-2的好几千倍。

依靠越来越大的模型,来推动人工智能技术进步,这种做法的问题在于,构建和部署这些模型需要大量的能源消耗,并因此产生碳排放。

在2019年一项被广泛讨论的研究《Energy and Policy Considerations for Deep Learning in NLP(NLP深度学习的能源和政策考虑)》中,由Emma Strubell领导的一组研究人员,评估了训练单个深度学习模型的能量消耗,这个数值可能高达626,155磅的二氧化碳排放量——约相当于五辆汽车在整个生命周期内的碳足迹。相比之下,一个普通的美国人每年产生的二氧化碳排放量大约是36,156磅。

可以肯定的是,这项评估针对的是能耗特别高的模型。如今,训练一个普通规模的机器学习模型产生的碳排放量应该远远小于626,155磅。

同时值得注意的是,在进行这项分析时,GPT-2是当时可供研究的、最大的模型,研究人员将其视为模型大小的上限。可仅仅一年之后,GPT-2看上去很袖珍了,比它的后继产品小了一百倍。

那么,机器学习模型到底为什么会需要消耗这么多的能量呢?

第一个原因是,用于训练这些模型的数据集的大小在不断地膨胀。在2018年,BERT模型在使用了30亿个单词的数据集进行训练之后,实现了同类中最佳的NLP(自然语言处理)性能。XLNet使用了320亿个单词的数据集进行训练,并且在性能上超过了BERT。不久之后,GPT-2接受了400亿个单词的数据集的训练。而让之前所有此类工作都相形见绌的是,GPT-3将使用一个包含5,000亿个单词的加权数据集进行训练。

在训练过程中,神经网络会针对输入的每条数据,执行一整套冗长的数学运算(既包括正向传播,也包括反向传播),并且以复杂的方式更新其参数。因此,更大的数据集,就会转化为飞速增长的计算和能源需求。

导致人工智能巨大能量消耗的另一个原因是,开发模型所需要进行的大量实验和调校。今天的机器学习,在很大程度上仍然是反复试错的练习。从业人员通常会在训练过程中针对给定模型构建数百个不同的版本,在确定最佳设计之前,他们会尝试不同的神经体系架构和超参数。

上述提到的那篇2019年研究论文中,描述了一个案例研究。研究人员们选择了一个平均规模的模型——比GPT-3之类的博人眼球的庞然大物要小得多,并且不仅检查了训练最终版本所需的能量,还测量了为了生产这个最终版本进行的各种测试的总体能量消耗。

在六个月的过程之中,他们培训了4,789个不同版本的模型,总共需要花费9,998天的GPU时间(超过27年)。考虑到所有这些因素,这些研究人员估计,构建该模型总计要产生78,000磅的二氧化碳排放量,超过一个普通美国成年人两年的碳排放量。

到此为止,这次讨论还仅仅涉及了机器学习模型的训练环节。但是训练只是一个模型生命周期的起点。模型训练完成之后,就会在现实世界中得到应用。

部署人工智能模型,让它们在现实环境中采取行动——这个过程被称为推理,该过程的能耗比训练环节更高。实际上,英伟达公司(Nvidia)估计,神经网络80%至90%的能量消耗出现在推理环节,而不是训练环节。

例如,想想自动驾驶汽车中的人工智能。首先必须要对神经网络进行培训,让它学会驾驶。在训练完成并部署到自动驾驶汽车上之后,模型会不断地进行推理,才能在环境中行驶,只要汽车还在使用之中,这个过程就会日复一日地持续下去。

毋庸置疑,模型具有的参数越多,对这种持续不断的推理的能量需求就越高。

能源使用和碳排放

既然提到了人工智能能量消耗和碳排放之间的关系。那么思考这种关系的最好方式是什么呢?

EPA数据显示,在美国,一千瓦时的能耗平均会产生0.954磅的二氧化碳排放量。这个平均值,反应了美国能源网中不同能量来源(例如可再生能源、核能、天然气、煤炭)的相对比例和碳足迹的变化。

上述提到的那篇2019年研究分析,采用了全美国的平均值,以便根据各种人工智能模型的能量需求来计算碳排放量。这是一个比较合理的假设。例如,亚马逊网络服务公司(Amazon Web Services)的电力来源组合,大致反应了美国整体的电力来源,而且绝大多数的人工智能模型都是在云端进行训练的。

当然,如果使用主要由可再生能源产生的电力训练人工智能模型,那么碳足迹也会相应地降低。例如,与AWS相比,谷歌云平台(Google Cloud Platform)使用的电力结构在可再生能源方面的比重更大。(上述那篇2019年研究论文显示,两家公司的这一比例分别为56%和17%。)

或者,举另一个例子,如果在太平洋西北部的硬件上训练一个模型,所产生的碳排放量会低于其他国家,这是因为这一地区拥有丰富的清洁水源。而在这方面,每一家云服务提供商都在鼓吹自己在碳补偿方面的投资。

总体而言,使用美国总体能源平均值,应该可以大致准确地估算出人工智能模型的碳足迹。

效益递减

通过不断变大的模型,追求人工智能进步的做法,凸显了模型规模和模型性能之间的关系。下列数据显示得很清楚:模型规模的增加,最终会导致性能回报的急剧下降。

比如,ResNet是2015年发布的一个著名计算机视觉模型。该模型的改进版本称为ResNeXt,于2017年问世。与ResNet相比,ResNeXt所需的计算资源要多35%(以总浮点运算来衡量),准确度却只提高了0.5%。

艾伦人工智能研究所(Allen AI Institute)2019年的一篇论文提供了详细的数据,记录了不同任务、模型和人工智能子领域中的效益递减问题。与GPT-2相比,最新发布的大型模型GPT-3出现了明显的效益递减迹象。

如果人工智能社区仍然继续沿着当前的研究方向前进,就会不断的构建越来越大的模型,耗费越来越多的能源,以实现越来越小的性能提升。任何成本/收益分析都会变得越来越比例失调。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读