第四范式:借势PC霸主,推出企业级AI操作系统
AI落地热火朝天,AI团队变身施工队,挨家挨户敲开传统企业的大门……然而,这是一种非常低效的做法。 第四范式创始人兼CEO戴文渊博士的洞察是:“重新按照AI的要求制定标准和规范,实现规模化。” 第四范式的定位一直不是SaaS产品公司,其核心能力在于 PaaS 层,AI应用的构建和积累都向平台集中发力。 回顾五年的产品发展路径,第四范式联合创始人、首席研究科学家,陈雨强告诉《亲爱的数据》: “第一代、第二代产品的时候,AI对人才的要求特别高,需要非常强的统计学和编程功底,特别是C++底层编程,还要python编程和组件代码能力。先知平台(Sage)的出现,用一个拖拉拽的界面,先建模,后上线,方便了数据科学家。2015年,在建设先知平台的同时,(我们)科学技术部做了两件事情,第一,高维机器学习模型,保证效果。第二,AutoML技术,不依赖于大量科学家手工打造模型。归根到底,三个字,降门槛。” AI的原始社会,自己动手、丰衣足食。AI的现阶段,陈雨强强调:“以后就不会这样了,都要现成的AI应用。” 原始社会喝水得从烧制陶器做盛水器皿开始,现代社会瓶装水3元一瓶,这是趋势。 AI进化,第四范式思考出一套“心法”。 2017年库伯学习圈(HyperCycle)。这个出生于1984年的理论在AI时代释放了新能量。暗合体验学习的四大步骤(反馈、反思、理论、行动),又对应(数据采集、数据标注、机器学习、机器模型),闭环结构实现对接和循环。用人类学习过程类比机器学习的过程,用一个熟悉事物的类似原理,去理解新鲜事物的规律。 可以这样说,理解了库伯学习圈,就理解了简版AI原理,绕过数学与编程的大山。 2019年,第四范式曾用「1+N」回答企业转型如何用 AI 构建竞争力。「1」代表企业的核心业务需要用 AI 做到极致,「N」代表企业的众多场景要用 AI 大规模落地。 “心法”解救普通人,“做法”解救无数亟需转型的传统企业。 2020年的发布会传达出,第四范式想做的是,“心法”+“做法”的双重智慧,这些都需要一个平台属性的产品去承载。 什么是数据形式? 过去的五年里,第四范式也有用高人力成本为合同项目填坑的事情,客户有时并不接受建议的方法论。陈雨强说:“我们的经验来自于踩坑,但不是100%的客户都接受。没有人配合数据改造,苦坐在现有的数据垃圾堆上,龟速前进,(项目)花了三年才完工。” 2020年,越来越多的解决方案瞄准AI整个生命周期。AI模型开发从启动到结束,包括数据准备、模型训练、模型测试、模型上线等环节。每一个环节做到极致,整个周期才有可能高效。在规模化中追求极致,有一样东西非常重要——标准化。图片、文本、日志,数据的形式多种多样,如何标准化?不同的业务场景,不同项目的数据平台,如何标准化?AI应用需要打通数据,第四范式就推出了“数据形式”。所谓“不定义,无数据”,数据从哪来、到哪去、类型、结构、关系……想要标准化,就是全方位地定义标准与格式。这些工作并不是一个新概念,名叫“数据治理”。数据形式是数据治理的终点。开始,一般是IT工程师对数据治理有深刻体会,也是他们最先意识到数据治理的重要性,而且数据治理最终是在IT层面落地。接着,AI工程师也感同身受了。 数据问题和IT问题高度混杂。第四范式是一家AI公司,几乎拥有一家IT公司全栈人才,与IT公司一模一样的人才配置。AI公司集体吐槽:“如果一个AI应用工作量是100%,那95%都是在数据上面。”陈雨强吐槽:“定义不清楚的话,AI生命周期后面所有环节,所有的人都会偏离,这也是做AI那么难的原因之一。做不到,AI科学家跑到每个细节去,跟每个工程师讲,为什么这个数据必须这么编码,为什么这个数据必须这么去拿,相当于做IT的人必须懂了AI,才能把这个事情完全做对。”一场嵌入式的革命,工程化、集成化随处可见,烦Skr人。 让一个新事物融入原有的体系是高难度、精细化的工作,也有人管这个过程叫,企业「智能化改造」。 AI落地不是科学发明,是一个具有时代代表性的复杂工程,背后藏着排山倒海的工程细节。数据治理就好比是建筑物的整体地基。 数据形式就好比万里长城上的砖、天坛祈年殿里的榫卯、宫苑凉亭里劈成条的竹篾,它们是藏在中国建筑里的灵魂。从某种角度讲,数据形式是藏在AI技术里的灵魂。“数据形式”一口气解决了三个问题。第一个,数据缺闭环,建模过程没有反馈机制。比如,人是环境的函数,人的成长需要有外部环境持续不断地刺激(教育)。数据不断供给,模型不断迭代。第二个,数据不一致。使用线下的数据建模,到了线上模型效果不好,原因是线下的数据经过了按照BI思路的ETL,导致使用了和真实的线上数据不一致的离线数据。错误的数据训练出来的模型到了线上,当然效果不好。 陈雨强用了一个比喻,他说:“要想富,先修路,但是问题在于AI和BI的路是不一样的,开火车得铺铁轨,马车也不能在高速公路上奔跑。”第三个,数据无时序。AI数据没有时间属性就做不了时序特征。比如,最近半年共买了3件东西:鼠标、键盘、显示器,消费物品数量为3。 数据有了时间的属性,才能理解买东西的先后顺序。算法能够做出更好的特征来琢磨消费者近期、中期和远期的行为。人的行为在变化,冬天买棉衣,夏天买T恤。统计数据不需要的,AI数据需要。第四范式AIOS产品负责人黄缨宁补充了一个例子。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |