还在纠结深度学习算法 计算机视觉CV的关键在于数据采集和标注!
2012年,AlexNet网络横空出世,带来了前所未有的深度学习革命,这也让多年来进展缓慢的计算机视觉CV研究,一下被按下了“快进键”。 人们突然发现,这种模拟人脑抽象和迭代过程的深度学习算法,让计算机开始“看见”。从物体的边缘、轮廓到物体的部分,再向更高级层层抽象,深度学习让计算机终于能够在一张日常照片中,检测并识别出图上有一只猫,而不是一条狗。 这样的一小步,人类已经等待了二十多年。2016-2018年,深度学习成为计算机视觉CV研究的算法“标配”,人脸识别、图像识别、视频识别、物体跟踪、行人检测等CV技术得以进一步突破,并快速应用到安防、金融、汽车出行、泛娱乐等各个行业中。 如今,人们拿起手机刷脸支付、一键美颜、拍照识图,背后都有计算机视觉CV技术的身影。而在更广阔的行业市场,智慧城市、自动驾驶、智能家居、智慧医疗等多种场景都在渴望计算机视觉CV技术更进一步。 过去五年,计算机视觉CV领域一度成为国内创投圈的“宠儿”。仅2018年,该领域融资额就高达230亿。然而,这样的盛景并没有持续多久。 去年2月,计算机视觉奠基人Alan L. Yuille曾撰文表达他对当下计算机视觉CV技术发展的担忧。他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。 从某种意义上来说,计算机视觉CV研究的确已经进入了瓶颈期。 计算机视觉CV困境:受限于AI数据的规模和质量 在近几年的发展中,图像分类、对象检测、目标跟踪、语义分割、实例分割等计算机视觉CV技术的核心任务,其精确度已经达到了产业落地的水平,但随之而来的,却是计算机视觉CV公司技术的同质化。 京东集团智能平台部投资主管徐博曾表示,在全球范围内,计算机视觉CV企业的技术都差不多,无论从中国还是美国发布的研究成果看,算法都是类似的。 业界关于计算机视觉CV技术已触及天花板的讨论越来越多,而源头则统一指向了深度学习算法。由于深度学习高度依赖大量的标注数据,如果计算机视觉CV的精确度想要再提高,如:对非常小和模糊的目标做检测,在复杂光照变化下保证分割结果稳定等,都需要分类更加细致、标注更加细化的数据去“教导”深度学习算法。 不仅如此,在工业界,数据规模更容易成为算法研发的关键因素。如果有更多的数据,就可以使用容量更大、更复杂的模型,得到效果更好的算法。当数据大到一定程度,数据和算法之间可以进行反复迭代,形成壁垒,为公司提供竞争力。 尴尬的是,在计算机视觉CV领域,可用数据的规模和质量,远远达不到进一步提升效果的需求。为了解决AI“数据荒”,业界尝试过多种办法,如:在少量数据基础上增加特征生成新数据;再或者,另辟蹊径去攻克半监督或无监督学习。 但是,种种“曲线救国”的办法,都解不了计算机视觉CV领域对高质量数据的“近渴”。落地到工业界,企业迫于市场竞争的压力,对计算机视觉CV的感知能力要求还在提升,业界对大规模、高质量AI数据的渴望空前强烈。 以人脸识别技术为例,云测数据总经理贾宇航表示,2015-2016年,人工智能对人脸数据训练的还相对粗放。但到了现在这个阶段,由于人工智能应用场景的多样性,对不同年龄、性别、肤色,不同的光线、角度的场景化要求越来越复杂,而且拍摄设备也随着手机、相机的不断进化,从单镜头到双镜头甚至增加了3D摄像设备,算法训练对数据的要求变得更加精细、丰富更加具有策略性。 场景化AI数据:量身定制的数据采集和标注 事实上,如今各大企业在AI产品上的竞争,本质上已经变成了AI数据之争。 在智能安防领域,产品可以分为监控、探测、防护等等,而视频监控则占据了其中大头部分。现有摄像头囊括了大量的行人、机动车、自行车等道路场景数据,而预警作为智能安防的重要作用之一,则需要识别诸如:老人摔倒、抢劫、打架、着火等稀有的小场景数据。显然,这种长尾场景的数据,需要在特定条件下的才能获取。 在人机交互领域,除了常规的语音、动作识别等,很多前沿研究希望通过情绪识别的方式,感知用户的心理状态,进而优化人机交互的体验。相对应的,人类在各种特定条件下的喜怒哀乐哭笑等精细的情绪数据,仍缺乏规模和质量。 在自动驾驶领域,由于涉及到驾驶安全,对场景化的数据要求更为精细。以图像识别为例,在佐治亚理工学院的一项研究中,通过对8个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低5%。 但从技术角度来看,计算机视觉CV是通过RGB或RGBD识别人/物体的信息,其中黑色是最难被识别的。现实中,由于黑色及深色的数据稀少,导致算法模型不够精确,最终在实际落地应用时出现差错。 为了获得规模化、高质量的AI数据,工业界开始寻求一种更具专业化的数据获取方式,即通过定制的数据采集和标注,来获取特定的场景化数据。据云测数据总经理贾宇航介绍,现阶段AI数据有着三个大趋势: 第一,场景的多元化。基于产品落地场景,尽可能模拟各种各样的特定条件,如:光线强度、拍摄角度、噪声要求、室内室外等,以覆盖丰富多样的场景,甚至是长尾场景的数据需求; 第二,样本的多样性。以人的数据为例,人是一个非常多元化的物种,有不同的年龄、人种、性别、国籍等等,除此之外还涉及广泛的数据类型,包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性,用AI产品服务好各种人群,就需要丰富多样化的样本。 第三,数据的多维化。随着技术和行业的发展,以智能驾驶领域数据需求为例,业界已逐渐从单摄像头过渡到多摄像头的方案。但是2D图像对于物体的测距仍有着很大的局限性,因此也出现了与激光雷达、超声波雷达等3D传感器的融合。通过多维度的采集硬件设备,帮助更多维度数据融合加速场景的落地。 目前,处于AI产品落地前夕或者处于重大迭代周期的企业,已经开始大力投入场景化数据用于算法的训练。以汽车行业为例,数据场景化定制主要集中在AI落地的两个方向:自动驾驶和车内智能驾驶仓。 在自动驾驶方向上,业界对行驶安全尤为关注,因此加大了对道路上长尾场景的覆盖,如:行人出现在马路中间、孩子突然在车前摔倒等,这决定了自动驾驶车辆能否及时识别出这些状况,并完成相应的控制决策。而在疫情期间,大街上出现了大量戴口罩的行人,这类场景也需要相对应的数据进行算法模型训练。 而在车内智能驾驶仓方向上,企业比拼的是车内智能和互动的体验,如:通过手势识别、语音识别、情绪识别等AI技术,来关注车内驾驶员是否疲劳驾驶、车内是否会出现争吵等危险事件,以便做到及时识别和干预。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |