加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽,交互到共生

发布时间:2020-04-14 02:44:34 所属栏目:动态 来源:站长网
导读:编者按:纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,

尽管视觉内容的理解可以随着各种高性能网络的设计和语义的深入挖掘不断升级,视觉和语言间交互的方式也已经从传统的soft-attention演化到捕捉高阶信息交互的X-Linear attention,但视觉与语言的技术发展依然逃脱不了深度学习对于训练数据的贪婪。COCO12万+的图像,约60万的人工标注语句,天然制约了图像描述生成技术进一步的发展。无论是对于更多物体的理解还是对于更广泛语言的表达,亦或是更精细更本质的视觉-语言匹配,都需要更细粒度、更大规模的视觉与语言标注数据来支撑。那么如何打破这一视觉语言数据的壁垒?如何突破当前算法的瓶颈?

当人们对某种文化进行反思甚至于迷茫的时候,就意味着一个新的起点将应运而生。因此在当下,视觉与语言也需要迎来一个新的阶段,其目的是在更广大的数据上挖掘出两者间最为本质的共生特质,从而促进不同模态间更为自由的转换。具体而言就是我们需要在海量的弱监督甚至于无监督视觉语言数据上去习得两者间最为本质的联系,然后再赋予模型在各种视觉与语言任务上的生命力。

目前刚刚兴起的视觉语言预训练(Vision-language pre-training)或许可以成为破局的关键。借助于海量网页自动抓取的视觉语言数据,如Conceptual Captions(https://ai.google.com/research/ConceptualCaptions/)和Auto-captions on GIF(http://www.auto-video-captions.top/2020/),我们可以预训练一个通用的编码器-解码器模型。正是因为在海量数据上所学会的视觉语言共生特质,该预训练模型可以全方位地赋能各种视觉与语言的下游任务,打破每一个下游任务中视觉与语言训练数据的限制,实现了“大一统”的视觉与图像间跨模态理解与转换。

目前,京东AI研究院的这些技术已在京东应用落地。例如商品图像搜索和图像审核等场景,同时也正尝试将视觉与语言技术融入任务驱动型多模态增强对话中,旨在提升人机交互效率和用户体验。

结语:好奇心是个人或者组织创造力的源泉,在权威图像描述生成评测集COCO上的成绩彰显了京东AI研究院在视觉与语言领域的世界领先水平。京东智联云将一面以智能供应链、“新基建”等为抓手,帮助政府、企业、个人进行数字化、网络化、智能化转型,成为了与零售、物流、数字科技组成了京东四大核心业务版图,是京东对外技术与服务输出的核心通道。一面以“ABCDE”技术战略为基础,保持前沿的技术技术研究和好奇心,即“以人工智能(AI)为大脑、大数据(Big Data)为氧气、云(Cloud)为躯干、物联网(Device)为感知神经,以不断探索(Exploration)为好奇心”。

参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei, “Boosting Image Captioning with Attributes.” In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei, “Hierarchy Parsing for Image Captioning.” In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei, “X-Linear Attention Networks for Image Captioning.” In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei, “Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.” In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” In ICML, 2015.[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut, “Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.” In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei. “Attention on Attention for Image Captioning.” In ICCV, 2019.

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!