加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

教AI认知世界:云测数据正在做的那些事

发布时间:2020-01-10 12:46:42 所属栏目:动态 来源:站长网
导读:屏前幕后,孜孜不倦的人们,用「数据标注」教会 AI 认识现实世界。而他们所处的数据采标行业本身,也正在从早期粗糙的「数据作坊」发展成为「数据工厂」的专业化运作。 如今,这些流程已经发展出一条完整的产业链采集、整理、清洗、标注,流水线似的过程恰恰是

屏前幕后,孜孜不倦的人们,用「数据标注」教会 AI 认识现实世界。而他们所处的数据采标行业本身,也正在从早期粗糙的「数据作坊」发展成为「数据工厂」的专业化运作。

如今,这些流程已经发展出一条完整的产业链——采集、整理、清洗、标注,流水线似的过程恰恰是 AI 算法模型精确运行的根基所在。随着 AI 技术在应用场景下沉,AI 企业对算法落地性要求越来越高。此时,垂直精细和定制化数据显得尤为重要。

2018 年,中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%。Testin云测旗下的 AI 数据服务品牌「云测数据」的出现,就是一个典型案例。

通过定制化场景搭建,帮助 AI 企业或部门构建数据核心壁垒,提供人工智能场景化落地最需要的数据,这既是客户获取差异化优势的保证,同时也是云测数据的核心竞争力之一。

教AI认知世界:云测数据正在做的那些事

周一,忙碌的工作照常被拧上发条,北京 2019 年的第一场大雪如期而至,这一天让张俪兴奋不已的不仅仅是大雪,还有她手中刚接下的项目订单。

客户是一家圈内名气不小的自动驾驶公司,他们提供给张俪(化名)一套数万张的道路数据集,张俪将任务分配给服务智能驾驶方向的小组员工。

十天左右,该套数据里的自动驾驶行车道检测图像即可标注完成,准确率超过客户要求。

两年前,就职于一家电商公司的张俪不会想到,两年后的自己会和「高精尖」的人工智能技术打交道。

2017 年末,张俪所在的电商公司因为 O2O 市场降温而倒闭。失业后不久,张俪在一位算法工程师朋友的推荐下,来到 Testin云测,开启了一段不同寻常的工作,人工智能的训练员——数据标注。

一开始,她只需要标注出图像中的人物性别,工作内容简单而机械。

接着,她开始给人物标注年龄段,开始框定 2D 对象,然后标注 3D 边界框,再从白昼图像到深夜和多雾场景……场景越来越多元、标注需求越来越详尽,最后这些经过人类点拨过的数据被一股脑地投入神经网络的研发之中。

到现在,张俪已经成长为一名项目经理助理,她的日常工作从标注转向项目承接,那些 AI 圈里耳熟能详的明星公司都是她的重要客户。

与数据标注师相类似,蚂蚁森林护林员、垃圾分类师、毒鸡汤文案师……这些看似匪夷所思的新职业,已经与我们生活丝丝相扣。

一份今年的新兴职业报告数据显示,「小镇青年」是 40 余种新职业的主力军,从业者约一半生活在三四五线市县,其中三分之二以上是兼职。

教AI认知世界:云测数据正在做的那些事

「非专业、兼职、劳动力密集型」——是报告为数据标注师圈定的标签,虽然不免有些以偏概全,但谈起「标注员」,确实很难将其与「专业化」、「技艺型」、「创造力」等字眼挂钩。

但如今,数据服务的产业链条正在被重塑。AI 企业对于数据的应用需求逐渐分化,精细度要求也越来越高,以往一味的粗放式加工模式已经丧失市场竞争力,大浪淘沙,从奔腾到平静,泥沙聚沉,清流上涌。

Testin云测旗下的 AI 数据服务品牌「云测数据」的出现,就是重塑整个产业和标注员印象的一个典型案例。

一、小数据的大天地

根据佐治亚理工学院的一项研究——通过对 8 个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低 5%。

结论一经报道,诸如「AI 行业也存在种族歧视」的言论便充斥在各大媒体上。

然而,从技术角度来看,计算机视觉是通过 RGB 或 RGBD 识别人(物体)的信息,但是黑色是最难被识别的(黑色或深色的 RGB 整体数值偏小),尤其在实际情况中,系统也欠缺黑色及深色的数据,由此导致算法模型不够精确,最终技术在实际落地应用时出现差错。

在数据服务行业,这种细分且稀缺的数据统一被称为「小数据」。

比如道路安防摄像头,摄像头中囊括行人、机动车、自行车数据,却唯独缺少行人跌倒数据;在自动驾驶领域,监测系统需要采集驾驶员各种状态数据,但缺少疲劳状态的数据。

教AI认知世界:云测数据正在做的那些事

贾宇航(云测数据总经理)解释道,云测数据针对这些需求,为客户定制场景、采集数据,在自动驾驶场景中,云测数据可以让驾驶员先开 6 个小时车,最终采集到真实的疲劳数据。

据了解,云测数据目前的整个数据服务人员已达千人规模,通过标审分离的流程化作业模式和数据安全机制,更好的保证数据的高质量产出和数据隐私性,从而更好地为人工智能落地提供定制化『数据养料』。

数据服务行业早期,企业主要通过数据爬虫收集数据,数据服务门槛很低,各个企业野蛮生长、鱼龙混杂;第二阶段开源/付费数据集开始出现,主要分为语音类、图像类、NLP 类数据集等。

随着 AI 的发展,仅仅靠数据收集已经不能满足客户的算法训练需求,第三阶段的 AI 数据众包平台应运而生,在众包平台上,可进行更丰富多样的数据采集与标注,进一步提升 AI 的能力。

当时百度和亚马逊都曾发展过此项业务,2011 年百度数据众包就以部门的形式成立,不仅为百度内部需求方如百度 NLP、百度地图等提供 AI 数据采集和标注服务,同样将数据众包业务进行开放,根据客户需求制定数据采集方案。

如今 AI 与各个产业结合得愈加紧密,为保证算法优势,客户需要采用定制化服务,由客提出具体需求,数据服务商对数据进行采集并标注,定制化数据的需求日益增长标志着数据服务 4.0 时代已经来临。

根据艾瑞《中国人工智能基础数据服务行业白皮书》显示,2018 年,数据资源定制服务已在基础数据服务市场占据 86.2% 的份额。

二、 场景实验室里的故事

浙江横店,三脚架支起的镜头面前,往后延伸出长长的队伍,这些群演并非在演戏试镜,而是采集情绪数据。

「咔」地一声,镜头面前,摄影灯下,群演们或大笑、或痛苦、或愤怒,表情的自然程度决定他们是否通过第一轮试镜,进入第二轮,考核的标准更为严苛。

群演面前立着一面镜子,镜子旁边便是审核人,「想想你上一次失恋是什么时候,心情怎样」,「你到现在最有成就感事情是什么」,诸如此类的问答也是采集基地的苦心安排——引导情绪、烘托气氛,保证情绪采集过程的真实、自然。

教AI认知世界:云测数据正在做的那些事

数据采集完成后,云测数据标注员工需要根据图片表现的情绪进行精准标注,未经精准标注的数据,人工智能无法理解其中意义。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!