加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

摘夺行为识别桂冠后,依图AI要征服更多“星辰大海”

发布时间:2020-08-04 20:19:29 所属栏目:产品 来源:安防知识网|0
导读:科技改变生活,而生活同时也在促使科学进步。 人工智能的广泛应用,促使各行各业都已充分感受到因技术发展而滋生的各种福利,如智能化家居体验、人脸通行、人脸布控、人脸寻亲等等。而随着人们对人工智能技术接受度的不断提升,用户新的需求也不断涌现。

  科技改变生活,而生活同时也在促使科学进步。

  人工智能的广泛应用,促使各行各业都已充分感受到因技术发展而滋生的各种福利,如智能化家居体验、人脸通行、人脸布控、人脸寻亲等等。而随着人们对人工智能技术接受度的不断提升,用户新的需求也不断涌现。

  以人为中心的AI为例,人脸识别技术和人体识别技术帮助人们精准的解答了“我是谁”这个问题,人体追踪和大数据分析技术帮助人们解答了“我从哪里来”这个问题,而针对“我做过什么, 以及正在做什么”则是一个尚未很好解答的问题。而这一需求,推动了行为识别这一更为智能的人工智能技术的发展!

  行为识别到底有多难?

  如果把人脸识别比作医院的“普外门诊”的话,行为识别尤其是人类的行为识别,其复杂度和识别难度不亚于“心血管内科+神经内科”。

  行为识别是指以人为基础单位,只分析人的行为,关注单人的动作以及多人的动作(例如:一起走路、奔跑、打架等)。与人脸识别的特征提取不同,行为识别并没有所谓的眼睛、鼻子、嘴、下巴等六大关键点,其特征提取的是人的特定行为。由于由于人类活动范围广泛,某一特定行为的表现方式千差万别,其复杂度要比人脸识别特征提取难得多。

20190906533_94271061_xxl.jpg

  其次,人们从20世纪60年代就开始关注并研究人脸识别算法,在问题定义和算法框架上都趋于成熟,在训练数据层面也不乏MS-Celeb-1M这种百万级公开数据集以供算法训练。但由于行为识别的问题难度远高于人脸识别技术,其真正得到关注并发展时间较短,无论是在问题定义还是算法框架上,都不及人脸技术成熟,数据集由于是视频动作, 采集和标注也更加困难, 限制了数据集的规模。这些都使得行为识别算法困难重重、亟待解决的难题之一。

  以及外界因素干扰问题。我们已经知道,人脸识别的精准度会受到光照明暗程度、姿态以及背景等外界因素的影响,而行为识别也亦是如此。摄像头拍摄质量(清晰、抖动、模糊、扭曲)不一样, 场景布局差异大(商场、走廊、马路、大厅、餐厅、公园等), 场景光线(室内、室外、晴天、阴天)差异大, 摄像头角度差(俯拍、平拍、斜排)异大、人体框大小差异大(远近)、人之间(人与物之间)经常发生相互遮挡等等都会为行为识别结果造成影响。

  此外,针对人体的行为识别,由简单到复杂可以分为如下情况:上下楼梯、一个人走路、骑车、打架、一个人站着、一个人坐着、排队、摔倒、弯腰捡东西、边坐着边和别人说话、聚集、一个人跑、两个人一起跑、一起散步……光从这点我们就能看出,行为识别需要捕获并进行分析的,不只是一个特定行为,例如:区分走动和跑动,区分是否发生了聚集,这几个人是否是同行,怎样才是打架……其难度之大超乎想象。

  场景复杂多变、动作差异化大这些对行为识别和分析都有着巨大的挑战,需要捕捉连续动作和长时间动作,也就需要算法对行为本身有更精准的分析推理能力,甚至还能通过既定的场景推算未曾见过的场景。

  技术攻关,依图行为识别重大突破

  尽管行为识别难度异常之大,但人们总是想尽一切办法征服每一个“星辰与大海”。依图科技就是这个代表。

  作为一家全球领先的人工智能公司,在权威机构ACM MM’20 Grand Challenge主办的“大规模复杂场景人体视频解析”挑战赛中,依图科技以大幅领先的成绩拿下了“Track-4:行为识别”的第一名。而在此之前,依图科技已经蝉联全球权威人脸识别竞赛冠军、先后刷新国际声纹识别权威竞赛(VoxSRC)纪录、行人重识别(ReID)三大权威数据集。在接连或者AI技术大多个第一之后,依图科技背后的技术创新和对行为识别难题的攻克开始备受关注。

1.png

  根据介绍,该赛事是最接近真实场景的大规模挑战赛。竞赛内容以真实视频场景为主,包含:不同画质、不同场景(室内外)、不同光源(季节室内外), 不同视角(俯拍平拍)等视频、视频中行为识别是本届比赛中的重点项目,目的是考察算法在复杂场景下对行为(包含多人追踪、人体姿态、行为识别)的解析能力,同时还保留了的人体检测与姿态估计、检测追踪、姿态追踪等行为识别的上游任务。在此次挑战赛中,包括 Amazon、腾讯、大华科技、中山大学等上百支参赛队伍参与了超过56000个复杂事件下的人体行为(包括排队、打架、俯身、同行、跑动、滞留等)解析。

  学术界通常用frame mAP (f-mAP@avg)来作为行为识别的评价指标,f-mAP@avg代表的含义是以关键帧为单位,评判行为的位置与分类是否准确;与学术界对行为识别的考察指标不同,此次竞赛的评价标准是wf-mAP@avg,这意味着更注重对难度较大的拥挤场景的考察,以及比较少见的动作的识别,同时对于人体框的定位的精确性要求也更高。比赛中,依图算法的指标达到了wf-mAP@avg 0.26,将以往学术界中的基准算法提升了近3倍。且据依图科技官方介绍,此次依图科技行为识别技术主要有以下四大亮点:

  1、算法性能:有了极为突破性的提升,是所有参赛队伍中的最优。

  相较于人脸这种算法流程、算法框架已经相对确定,并且发展比较成熟的领域而言,行为尤其是人的行为识别,还处于一种学术界还在探索的阶段。主办方给出了2018年 CVPR上的算法解决方案, 对应的指标是: 0.0688(越高越好);依图在参赛中实现了学术界上2020年最好的已有解决方案(指标是: 0.12),而最终通过依图的算法,指标是 0.26,足足提升了1倍以上,相较于以往学术界最优算法,是极为突破性的提升。

20190528157_25471317_xl.jpg

  2、创新性地将算法与场景结合,进行深度算法优化

  结合场景分析——创新性的从视频中自动提取到了丰富准确的场景信息(如: 马路、楼梯、桌椅等信息),结合先进的行人检测、行人重识别算法,全面实现了人与人、人与场景、人与物之间在视频中的关系,这些详细的结构化信息为准确的行为识别提供了可靠的依据,准确性上是所有参赛队伍中最好的。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!