烧了微软 10000 张 GPU,这伙人铁了心要砸大家的饭碗
这 " 都怪 "OpenAI 最近内测了 GPT-3 的 API,让程序员得以脑洞大开,让普通人感到 " 害怕 "。 GPT-3 能力超强,一方面是因为在激烈竞争中各家 NLP 技术突飞猛进,更主要原因还是 OpenAI 够暴力、够多金。 要知道,去年 OpenAI 发布的 GPT-2(GPT-3 的前辈)只有15 亿参数,而今年 GPT-3 参数量已经暴增到1750 亿个,是前者的 100 多倍! 参数的暴增无疑会给模型性能带来明显的改进,但问题是多出来的计算资源从哪来。 成立不到 5 年的 OpenAI 能让 GPT-3 在一年内实现飞跃,其中当然少不了金主爸爸的支持。 去年,微软10 亿美元投资 OpenAI,让原本拮据的 OpenAI 终于可以放开手脚开发更为强大的 AI 模型。 GPT-3 采用了两阶段的思路。 首先,用海量语料库对 GPT-3 进行无监督预训练,数据集大约含有 3000 亿个 token,训练目标是让模型去预测下一个单词。 如果模型预测结果是错误的,那么就计算误差并更新模型,以便在下一次做出更好的预测。这一过程要重复数百万次,直到模型能生成正确的句子。 这一步是最最烧钱的。谷歌开发的 BERT," 只有 "3 亿参数,英伟达用 1400 多个 V100 GPU 组成的计算集群算了近 1 小时才完成训练。 何况数据集规模超过 500GB 的 GPT-3 预训练模型,还有 1750 亿参数,训练难度就可想而知了。 为了训练 GPT-3,微软花钱攒了台超级计算机。 今年 5 月,微软官方公布推出一台全球前五的超级计算机,专门用于 OpenAI 的模型训练。它总共有28.5 万个 CPU 核心、1 万个英伟达 V100 GPU。(黄仁勋看到这个配置,应该露出了笑容。) 有了这台超算,OpenAI 就能实现 " 更大胆的想法 "。 有专业人士推测过,训练一个 GPT-3 模型需要 "355 个 GPU 年 "(一块 GPU 运行 355 年的运算量),光是训练费用就高达 460 万美元。 在微软和 OpenAI 的努(chao)力(piao)下,GPT-3 终于被训练出来。 以上只是第一阶段,预训练模型还不能直接用于具体任务,接下来只要对刚刚的模型进行微调,就能处理各种负责的 NLP 任务。 而这一部分的运算量要小得多,普通用户也可以承受。于是我们就看到了 GPT-3 被用来写代码、做设计。 颇具争议的 GPT-3 GPT-3 成为网红,当然也少不了网友的激烈讨论。 有 reddit 网友认为,GPT-3 的出现证明了通用人工智能不会太遥远。GPT-3 已经做了可以做的一切,我们甚至不需要做得更好,只要再等几年,等算力增强,把数据集再扩大 10 倍。 也有人觉得,我们对 GPT-3 是否过于了乐观,说它是 " 天网 " 太过夸张。GPT-3 本质上还是个 NLP 模型,和 GPT-2 具有相同的结构,唯一的区别只是规模更大。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |