还在纠结深度学习算法 计算机视觉CV的关键在于数据采集和标注!
事实上,道路情况千变万化。云测数据通过自建的“场景实验室”的方式还原现实场景,帮助算法模型尽可能多地覆盖不同场景下的多维数据,从而提高自动驾驶车辆的安全性。而这样高质量的场景化数据,才得以帮助企业真正的商业化落地。 云测数据:场景化AI数据采标的引领者 如今,越来越多的行业在与人工智能技术结合。企业为了保持优势,打造持续的AI竞争力,开始与AI数据服务商紧密合作,以获得更高质量的场景AI数据来进行产品落地前的优化。 根据艾瑞《中国人工智能基础数据服务行业白皮书》显示,2018 年,数据资源定制服务已在基础数据服务市场占据86.2%的份额。各个行业的头部企业更是一马当先,都在为场景化AI数据“下血本”。 目前,众多AI巨头、车企巨头、大型金融机构、互联网企业以及传统企业等等,都与云测数据建立了良好的合作伙伴关系。 一旦数据采集和标注变成专业化、高质量的服务,交付的数据就需要在数据的规模、质量、时效性上充分满足服务企业的需求,来助力AI产品达到商业化落地的标准,而这正是云测数据的优势所在。 据悉,云测数据作为国内数据采集和标注领域头部的服务商,在创立之初恰逢自动驾驶、智能音箱等AI应用趋势兴起,各大企业需要大量的计算机视觉CV数据以打磨自己的算法和AI能力,由此计算机视觉CV也成为云测数据至今深耕最久、经验最丰富的领域之一。 虽然与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域,但长期与行业众多企业的紧密合作,让云测数据持续保持着全品类CV数据采集和标注的优势。 为了提供更为专业的服务,云测数据自建数据基地和场景实验室的方式,打造出AI领域的数据“梦工厂”。 结合标准化的作业流程,并配以专业的标注工具和平台,云测数据在华东、华南、华北自建的数据标注基地和场景实验室,是高效率和高质量数据交付的强力保障。 其实对于数据标注,不同的人有不同的理解,例如:什么样的光线叫做强光线,在判断上有很强的主观性。为了保证企业客户和标注人员的理解达成一致,云测数据的项目经理保持着实时的沟通和反馈,并配合行业培训师对标注员们进行前期培训,以确保在标注时具有领域专业知识。在确立了数据标注标准后,标注员全程在线上标注系统里完成作业,并最终经过层层质检以保证数据标注的准确性。 以自动驾驶为例,为了让机器“看见”复杂道路环境中的车道线、路标、障碍物、行人、十字路口,以及一些长尾场景如:闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等,数据标注时需要采用图像分割、连续帧标注、2D图像框选、3D点云标注等多种标注方式。其中,云测数据自研的3D点云标注工具,能够保证整个标注过程流畅快捷,其效率比开源工具高5倍左右。 在人脸及人体关键点标注及追踪方面,云测数据能够通过领先的标注工具实现精细化的标注,如:对人脸进行26点、54点、96点、206点的人脸关键点标注;贴合度在3像素以内的特定任务关键点追踪;对人体骨骼关键点位置进行打点,特定位置可脑补并分配对应动作属性等。 对于企业客户最关注的数据安全和隐私,云测数据也有自己的原则和底线。首先,数据绝不复用,对于客户定制的数据需求,交付后全部清删。第二,在云测数据的标注基地设定了数据隔离、质量保障等一系列数据安全流程,确保数据不泄露,同时还提供标注人员主场服务。 不难发现,云测数据从数据采集、标注、审核、输出、安全等环节提供了一整套的解决方案,在保障AI场景化数据高质量生产的同时,也使得交付的数据等高效、高质、安心。 CV研究下的AI数据趋势:精细化、效率化、多模化 随着企业在AI功能性、拟人化、安全性方面的竞争进一步加剧,对应CV数据的要求也将越来越高。在云测数据总经理贾宇航看来,未来计算机视觉训练数据的发展需求会呈现三大趋势: 一是,数据采集和标注的精细度会更高。从算法的学术研究到产业落地,对于标注内容的精细程度正在不断上升 。以人脸识别为例,从前期的90%到95%是一个档次,而当数据标注精度达到99%时,算法模型的完善,将会有质的提高;同时,针对物体属性分类,也从单层级向多层级进行演进 ;以及对应的训练数据的采集与标注,需要有更多相关操作能力和经验的专业人员来操作。 二是,在效率层面,未来随着更多产品落地,AI产品迭代时间将更加清晰明确 ,对应的数据标注时间、数据标注量都有明确的时间节点。因此,数据采集和标注的效率,将很大程度考验着数据服务商的专业度。 三是,多模态的数据采集和标注,会成为一种必然趋势。不同的样本、场景、设备构建的多维度数据的融合,将大幅度提升AI算法的能力。对于数据服务商而言,是否具备加速处理数据的能力,以及场景搭建、还原的能力,都决定了市场竞争的门槛。 在这样的趋势下,所有的AI数据服务商都面临不断升级的业务难度。如云测数据这类处于引领地位的数据服务商,往往会结合各行业最头部企业客户的需求,来布局自己的服务领域,对服务能力进行自我迭代升级,以确保该需求成为行业普遍需求时已经成为该领域的数据专家。对于后进者而言,缺少专业知识、技术和行业经验的日复一日的积累,这种竞争差距只会越拉越大。 结语 创立了ImageNet数据集的斯坦福教授李飞飞曾在TED演讲中畅想:“当机器可以‘看到’时,医生和护士会获得一双额外的、不知疲倦的眼睛,帮他们诊断病情、照顾病人;汽车可以在道路上行驶得更智能、更安全。我们会发现新的物种、更好的材料,还可以在机器的帮助下探索从未见过的前沿地带。” 人类对于技术深度的追求和美好未来的畅想从不落幕。很多人或许认为计算机视觉CV技术已经遭遇了瓶颈,但同时,也有越来越多的企业意识到,想要打破计算机视觉CV技术的同质化,再一次实现机器感知能力的突破,获取高质量、精细化的场景化AI数据至关重要,而这也是各行业企业打造AI竞争力的关键所在。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |