加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

开启全新「智能时代」,云测数据在AI落地的背后做支撑

发布时间:2020-10-01 04:15:25 所属栏目:动态 来源:站长网
导读:纽约大学教授 Gary Marcus 在他 2019 年的新书《Rebooting AI》中,将深度学习的问题重新归纳为 3 点,其中第一点就是对数据的极度贪婪和依赖。 近年来,大数据和AI就和之前的云计算一样,不管是媒体还是企业都言必称大数据,似乎这样就能站在行业的风口浪尖上

纽约大学教授 Gary Marcus 在他 2019 年的新书《Rebooting AI》中,将深度学习的问题重新归纳为 3 点,其中第一点就是“对数据的极度贪婪和依赖”。

近年来,大数据和AI就和之前的云计算一样,不管是媒体还是企业都言必称大数据,似乎这样就能站在行业的风口浪尖上。实际上部分企业获取到 PB 量级的数据,可能只能做简单的回归分析,要么标签太稀疏,要么缺失,或者在收集上存在主动或被动的错误,给实际业务带来了不小的麻烦。

根据美国高德纳咨询公司报道,质量差的数据使企业在 2017 年平均损失了 1500 万美元。《麻省理工学院斯隆管理评论》进一步证实了这些发现,该报告指出,脏数据使业务平均损失了 15% 至 25%。如此惊人的比例,让企业对数据的质量愈发重视起来。

因此,如果仅仅获得第一手数据,就“万事俱备,只差一个程序员了”,那就大错特错了。数据获取只是第一步,只有经过高效专业处理的数据,才能对趋势预测、统计分析或聚类分类等项目有优质的产出,为提升效率、节约成本或高层决策带来有利支持。

IT 界有这么句话“Garbage in, garbage out”。只有投入高质量的数据,才能得到有意义的结果,对垃圾数据的反复计算迭代,就好比在锅里面对石头进行不断翻炒,即使时间再长加上再多调料也不能吃。低质量的数据将造成资源浪费、生产力增速下甚至是直接影响企业发展方向判断,同时,低质数据也会失去客户的信任,影响企业的竞争力。

随着 AI 公司对高质量数据的需求不断加大,数据标注处理等数据服务开始形成一个行业,在 AI 发展中担当越来越重要的作用。那么对于这个过程,我们有应该如何选择处理方式,才能迎接 AI 时代风起云涌的浪潮呢?

AI数据服务趋势:专业AI数据服务商、众包比例逐渐超越企业自处理

为了获取更多的AI数据,体量大的企业的依靠自己庞大的用户量进行收集,有的使用爬虫,还有些直接购买,但是要获取符合业务需求的有效数据并不容易。qualia.AI 的合伙人 Iason Demiros 曾经在社交网络上表示:AI 行业最贵的就是数据收集、清洗和数据标注。要获得更多收益,就要思考如何把数据处理的成本降低,把困难的东西做简单。

目前,行业内常见的AI数据服务方案有下面几种:

针对企业内部AI数据特点,团队内部或聘请专人来对其进行清洗标注和分析交给专业AI数据服务商来处理交给众包平台

然而这几种方案各有长短,由企业内部自行对AI数据进行处理,需要很高的内部人力成本;交给专业AI数据服务商,则又会有安全方面的担忧;而交给众包平台虽然便宜,但质量和信息安全可能得不到保障。

从近几年的报道来看,无论是国外的 Amazon MTurk、Crowdflower 等,还是国内的百度众包、京东众智,甚至是一些院校“强制”学生进行实习等,保持着流水线工人一样的低成本高劳动密集的特点,其背后的管理模式、信息安全和时效都有很大的不确定性。

据云测数据总经理贾宇航介绍,现阶段 AI 数据有着三个大趋势:

第一,场景的多元化。基于产品落地场景,AI数据需要尽可能覆盖丰富多样的特定场景条件,如:光线强度、拍摄角度、噪声要求、室内室外等,乃至是长尾场景的AI数据需求。

第二,样本的多样性。以声音的AI数据为例,就分不同的年龄、地区、性别等等,除此之外还涉及广泛的AI数据类型,包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性,用AI产品服务好各种人群,就需要丰富多样化的样本。

第三,数据的多维化。随着技术和行业的发展,以智能驾驶领域AI数据需求为例,业界已逐渐从单摄像头过渡到多摄像头的方案。但是 2D 图像对于物体的测距仍有着很大的局限性,因此也出现了与激光雷达、超声波雷达等 3D 传感器的融合。通过更多维度的AI数据融合加速人工智能场景的落地。

因此,随着人工智能的落地需求的场景和专业化程度的增加,AI数据本身的复杂度和种类也不断提升,行业亟需场景化、专业化、高质量的AI数据服务,对于数据标注的管理和操作人员的专业性也有了更高的要求。

而解决AI数据问题需要从数据源出发,其过程涉及AI数据的采集、清洗、建立公司标准的企业处理模式,甚至需要对数据进行问责制度,同时需要建立协同机制,避免出现数据孤岛。因此,越来越多的人工智能企业开始选择专业的AI数据服务公司进行合作,以获得更加高质量、高效率的AI数据。

云测数据:AI数据服务的最高精度支持 99.99%

云测数据具有全领域的AI数据服务标注能力,涉及视觉图像、语音语义理解、自然语言处理等;拥有具备自主知识产权的数据标注平台,并不断优化工具易用性和扩展性,以提升标注的效率,同时自研质检工具,确保标注和审核结果的高质量输出,其数据标注的最高交付质量精度可达到 99.99%。

据悉,云测数据拥有自建的数据标注基地和业内首创的数据场景实验室,不管是数据生产效率、数据质量保证、数据隐私安全,还是实力规模、数据交付经验、帮助传统企业智能化转型等方面,都有着不可替代的优势。其合作客户涵盖汽车、安防、驾驶、手机、互联网、金融、新零售、工业等领域的上百家企业和研究机构。

首先,云测数据对AI数据作业的流程进行了严格的规范化,以标准化服务为抓手,前期明确客户的AI数据标准后,经过试标注验收合格之后,才开始规模化作业,标注之后还有几轮质检和交叉审核,用来确保数据的高质量输出,并且项目经理全程跟踪数据作用流程,全力保障数据交付质量。此外,云测数据在流程设置上也进行了优化和管理,确保各环节衔接通畅,实现保证质量的情况下的高效输出。

开启全新「智能时代」,云测数据在AI落地的背后做支撑

为了让高质量 AI 数据成为企业的核心壁垒,云测数据以高质、专业、高效、丰富、安全的优势展示了自己的AI数据业务布局。

开启全新「智能时代」,云测数据在AI落地的背后做支撑

安全性:数据的安全主要在于数据安全、隐私和版权的保障上。为保证AI数据的隐私安全,云测数据设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。

云测数据总经理贾宇航也曾多次公开表示,无论是 AI 公司还是数据服务公司,眼光都要长远一些,采用未经授权的数据当然可以控制成本,野蛮发展终究会造成不良后果。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!