教AI认知世界:云测数据正在做的那些事
正如贾宇航所言,云测数据的采标业务正是整个 AI 产业所迫切需要的,横店群演的情绪采集只是场景化定制数据的一个缩影。根据企业数据需求,还原 AI 应用真实场景,这不仅需要深入理解需求,还需要快速构建场景,而且对人力资源的调配能力也提出挑战。 云测数据的服务采取项目制,每位专业项目经理经过了 30-60 天的职前培训,帮助客户拆分原始需求、优化项目执行方案,项目经理集中培训后,再由项目经理针对具体的项目对标注、质检、审核员工进行培训。 纷繁复杂的需求背后,有的是刚需,有的则是「无用功」,定制过程中,云测数据需要根据以往项目经验及实地调查来明确需求,此后再细化、优化需求,帮助客户完成复杂场景的落地,同时避免客户花费更多成本。 在采集过程中云测数据会运用专业的软/硬件设备,比如用测光强度的设备来满足客户的环境光照要求,如果客户需要纯净音频数据,那云测数据会搭建一个录音棚,满足诸如混响或者高底噪的定制化需求,最后再用麦克风进行录制。 在云测数据交付部门负责人朱文辉看来,整个行业仍处在早期,客户需求变更经常发生;其次,行业内部面临很多的不确定性,采标现场的筹备环节,人员的管理问题,需要一系列的协同化处理。 如果说数据采集只是备齐食材,那么标注流程称得上后期「烹饪」环节,帮场景数据「训练」算法模型完成最后一道工序。 在标注环节,云测数据拥有线上自研的数据标注平台——平台上聚合着如图像、文本、音频等数据类型的先进标注工具,尤其是在 3D 点云的标注系统中优化了渲染引擎,保证整个过程的流畅和快捷,当属业内领先。 据朱文辉介绍,「研发团队里有产品经理、前后端工程师」等,他们会针对不同领域循环式地改进标注工具,并根据客户需求,实时反馈、实时更新、实时研发。「我们的迭代速度一直很快」朱文辉回忆道:「迭代之后有些领域的效率提高了三倍不止。」 除了自研线上标注平台,云测数据分别在华东、华南、华北自建了标注基地,还有几个基地正在部署中。在确保标注数据准确率的同时,有效保证标注作业的信息流转和数据安全。 由于标注是人工完成,本身主观性因素较大,加之行业缺乏统一的标注数据标准,这使得标注工作充满不确定性。 「标注的过程是一个颠覆常识的过程」,朱文辉笑着说道,「不同人对待同一件事情标准是不一样的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每个人的标准都不一样,主观性很强,在判断的过程中,我们会与客户一起沟通交流需求,厘清标准;其次,有的标注事件异常复杂,需要对标签进行优化,例如人脸识别,描述一张人脸需要 80 多个标签,此时云测数据会把该项目拆成 5 大类,分工完成,最终拼凑成完整的结果输出」。 三、数据安全「密钥」 2019 年 10 月 28 日,杭州「人脸识别「第一案将」究竟谁有权收集我们的人脸信息「这一话题推向舆论高地,事隔一个月,转转、咸鱼、淘宝等平台」5000 多张人脸照标价 10 元「的新闻在行业里又掀一轮风波。 数据的恶意倒买倒卖已足够骇人听闻,而另一方面,平台未经用户授权,将用户数据记录、用作自身系统优化更是让人防不胜防。 今年 1 月,苹果在 CES 会展中心场外拉起一块以隐私为主题的巨幅户外广告牌——「what happens on your iPhone,stays on your iPhone」。广告采用黑底白字的极简风格,但现实却往往是灰色的——亚马逊、苹果、谷歌等公司都存在监听用户数据的行为。 正如科技巨头们为自身辩解的那样,「监听数据是为了优化算法模型,提高用户体验」,但他们却从未澄清重要事实——使用人工听取录音,标注用户关键信息,致使大量用户个人隐私泄露。 如今,面对舆论压力,科技巨头们开始调整战略,亚马逊允许 Alexa 用户选择对录音不进行人工审核;苹果开始允许用户删除 Siri 的历史记录,把共享录音设为可选项;谷歌暂停人工转录 Assistant 音频。 平台应用方窃取数据进行相关标注,已经让平台用户人人自危,而在专业第三方数据采标公司里,数据安全问题更是凸显。 目前数据服务行业中,在保障数据安全层面,主要包括私有化离线部署,驻场标注,数据存储在客户本地;第二则是公有部署,数据接入在公有云服务器,通过数据接口加密、定期巡查、反爬虫机制保证数据安全。 作为AI数据服务的头部企业的云测数据,一直将数据隐私、数据安全放在业务开展的首要地位。在贾宇航看来,数据安全领域,无论是 AI 公司还是数据服务公司,眼光都要长远一些,采用未经授权的数据当然可以控制成本,但是当行业进入越来越规范的阶段,前期的野蛮发展终究会造成不良后果。 在保证数据安全方面,云测数据有三层面投入: 首先,不滥用数据,数据交付后清毁数据不留底,绝不二次使用; 第二,不侵犯隐私,与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规; 第三,建立相关的数据保障机制,如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等。 Testin云测 CMO 张鹏飞也补充道,「从整体看来,AI 数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。 四、纵横发展,数据服务的下一幕 目前,整个市场需求正向「一纵一横「方向发展,」一横「即指越来越多的行业开始运用 AI,不管是金融、保险、物流、零售还是智能制造等行业。云测数据的客户主要分为两大类,一种是运用 AI 颠覆行业,一种是在传统行业引入 AI,后者正在变得越来越多。 「一纵「是指 AI 与已有行业结合得越来越深,AI 正从大量数据驱动变成了与产业相结合,需要与产业专家进行合作,例如在人脸识别场景,早期只用识别人脸,之后发展到情绪检测,后期愈加深入细分——如微表情识别。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |