再夺第一，深度解析依图行为识别的技术高墙与创新突围

发布时间：2020-08-06 11:23:35 所属栏目：评论来源：站长网

导读：安防江湖三十年鏖战，AI即出，多方势力涌入让这个世界重新异彩纷呈，也经历了新一轮洗牌。如果说成功的企业是相似的，普通的企业各有各的不同。在这场战役中留下姓名的企业，皆因技术、产品、服务等硬实力，成为了行业中的佼佼者。在同样起跑线，有些企

安防江湖三十年鏖战，AI即出，多方势力涌入让这个世界重新异彩纷呈，也经历了新一轮洗牌。

如果说成功的企业是相似的，普通的企业各有各的不同。在这场战役中留下姓名的企业，皆因技术、产品、服务等硬实力，成为了行业中的佼佼者。

在同样起跑线，有些企业总是能独占鳌头，以不卑不亢的姿态，成为“别人家的孩子”。

AI独角兽依图也是这样一位“别人家的孩子”。

最近，在国际权威机构ACM MM（ACM MM’20 Grand Challenge）主办的“大规模复杂场景下人体视频解析”挑战赛（Large-scale Human-centric Video Analysis in Complex Events）的核心赛道——行为识别中，依图科技再夺一冠。

ACM MM被认为是多媒体技术领域奥运级别的顶级盛会，也是中国计算机学会（CCF）认证和多媒体研究领域评级中唯一的A类国际顶级会议。此次挑战赛集结了国内外约100支参赛队伍，包括亚马逊、大华、腾讯、中山大学等知名企业和院校。

同时，此次竞赛是该方向最接近真实场景的大规模挑战赛，主要基于各类人群和复杂事件（如地震逃生、食堂用餐、下火车等）来分析人的行为，包括多人追踪、姿态估计、姿态追踪、行为识别等四大任务；目的在于考察算法在复杂场景下对人体的解析能力,鼓励研究者在以人为中心的分析中解决非常具有挑战性和现实的问题。

更为关键的一点是，与其他举办过多次的国际竞赛不同，作为首届竞赛，参赛队伍在赛前无法了解识别的类别、数据集的大小和识别的具体需求，这意味着,对即将面对的行为类别、数据模型、比赛需求一无所知，这意味着没有经验可借鉴，没有路径可学习。依图是如何在短短两个月的挑战时间内，实现最优的算法性能，拿下世界第一？

挑战不可能

顾名思义，大规模复杂场景挑战赛必然需要大规模和复杂场景。大规模即丰富的场景、大额的数据量（一般情况下，100万以上的数据量在学术界会被称为大规模）。

作为首届比赛，HiEve数据集标注超100万个，内容以真实视频场景为主，囊括了当前姿态数量最多的数据集。其中,有超5万6千个复杂事件下的人体行为，包括但不限于排队、打架、俯身、同行、跑动等；平均轨迹长度超过480，是轨迹数量最多的数据集之一。

结合到比赛的具体任务而言，行为识别，简单场景指的是一个视频里只分析一个行为的主体；复杂场景指的是视频里有多个人，在密集、拥挤的场景下，分析的行为还需要包含人和人之间的互动。

1）数据量大，但有效数据少

比赛中，考察的行为种类非常多，且每种行为可以有多种表达方式，例如出拳、拉扯、扇巴掌等都属于打架，而训练集很难覆盖所有可能的组合。

虽然数据总量达到100万，但由于视频数据帧之间的相似性很高,包含了大量冗余数据。这些数据对算法提升泛化性的作用有限。如果去除这些极为相似的连续帧冗余数据，整个训练数据中的数据也只有几万个，仅仅覆盖20个左右的视频场景。这意味着有效的数据且测试分布一致的数据量并不多, 极大的增加了泛化难度。

换句话说，在训练过程中，大量测试的场景，并没有被算法系统直接学习过。这就需要算法具备强大的泛化性能，让算法学会“举一反三”。

2）场景复杂

此外，场景的复杂性无法一言以概。例如，摄像头的拍摄质量(清晰、抖动、模糊、扭曲)不一, 不同场景的布局不同 (例如：商场、走廊、马路、大厅、餐厅、公园等), 场景光线受到室内、室外、晴天、阴天的影响也比较大；甚至还存在摄像头俯拍、平拍、斜拍各个角度的差异、人体框的大小和远近不同、乃至人之间(人与物之间)还会经常发生相互遮挡。

解决了算法的泛化能力问题，克服了场景的复杂性，还有其他代解难题。

3）行为差异大

要知道，实际中行为分析是非常复杂的。即使是同一类行为，在不同时刻、不同场景也具有很大差异性。比如不同的人在不同时刻行走，速度、姿态和场景遮挡都会不同。或者同一行为具有多种不同的表现形式，比如单“打架”一个行为，可能包含踢人、扇耳光、拉扯等不同形式。

再夺第一，深度解析依图行为识别的技术高墙与创新突围

在多人场景甚至是密集场景下，除了要准确识别个人行为，还要标出人与人之间的互动，需要对每个人，在任何一个时间点上，给出此刻的行为判断。

4）连续动作和长时间动作捕捉难

通俗的说，读懂一个动作，需要长期、连续跟进，还需要结合上下文，才能做“阅读理解”。这就需要同时具备时间和空间的感知能力，准确的捕捉到人在前几秒每帧的动作, 并集合时间上动作发生的变化推测出行为。

以“挥拳”为例，整个过程经历了开始的靠近阶段、挥动拳脚的高潮阶段以及结束阶段。只有结合了人体每个时刻的姿态，才能更准确地判别出动作。

再夺第一，深度解析依图行为识别的技术高墙与创新突围

更重要的是，需要在短短两个月的时间内解决以上问题并夺冠，做到世界第一，没有极其深厚的技术积累、行业经验以及快速解决问题的能力，难之又难。

算法“凿山”，算力“开路”，解锁智能未来

当然，也有一些业界人士毫不讳言：相较于人脸领域这种算法流程已经相对确定、算法框架的技术水准也趋于稳定的成熟领域而言，行为识别，尤其是人的行为识别，还处于学术界的摸索阶段。但也许AI界的下一掘金地可能就在这里。

学术界的探索意味着没有多少前人指路，依图能在囊括如此复杂难题的行为识别赛道夺冠，并非偶然，除了对场景的深度理解、创新融合，还有硬实力的支撑。

学术界常用frame mAP (f-mAP@avg)来作为行为识别的评价指标，f-mAP@avg代表的含义是以关键帧为单位，评判行为的位置与分类是否准确；与学术界对行为识别的考察指标不同，此次竞赛的评价标准是wf-mAP@avg，这意味着更注重对难度较大的拥挤场景的考察，以及比较少见的动作的识别，同时对于人体框的定位的精确性要求也更高。

在短短两个月的挑战时间内，依图算法的指标达到了wf-mAP@avg0.26，将以往学术界中的基准算法提升了近3倍。

再夺第一，深度解析依图行为识别的技术高墙与创新突围

掘金不易，凿山开路更不易。何况视频相较于图像的行为识别更加复杂，如何建模、视频帧之间的相关性仍是学术界一直存在的难题。

依图深谙这一点，优化算法来“凿山”。

研发团队透露，当应用场景明确后，在已知分析的对象是人体且明确知道要识别的类别后，就可以针对性的进行算法优化，通过算法定制化来提升算法性能，解决以往不能很好解决的问题。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

社区团购仍然一团浆糊	复盘 5G时代，中国时刻
iOS15.2Beta4现已推送	低调中爆发？165W+骁龙