CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽,交互到共生
编者按:纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如“道生一,一生二,二生三,三生万物”一般,赋予模型在各种视觉与语言任务上的生命力。 This monkey on the back of horse Disney made the best cake of all time using projection Tiny squid flopping around on the rocky bottom of fish tank 注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在GitHub上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注! 》》缘起: 视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域。然而在2014年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的encoder-decoder模型一下贯通了从视觉内容到语言表达的转换,为CV和NLP领域的后继者同时打开了一个不同模态交叉融合的新世界。 与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)和语言解码器(Language Decoder)。前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。 》》自洽: 各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling)。 在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例,该阶段的研究重心往往是如何从图像视觉内容中解析出更多的高层语义信息,并将这些语义信息融入到视觉编码的过程中,以增强编码器输出的视觉特征表达。这一研究思路也正是我们在前三年一系列工作的脉络,即属性(Attributes)->关系(Relation)->结构(Hierarchy)。 rId9 如上图,首先是2017年我们尝试在视觉内容编码的过程中引入高层的语义属性,它不仅包含图像中显著的物体,也具备背景中的场景信息。在获取高层语义属性后,我们不仅可以在特征层面将语义属性特征融合至编码特征中(LSTM-A [1]),也可以将识别的语义属性词直接“拷贝”到解码出的描述中(LSTM-C [5])。接着在2018年,受到Bottom-Up [6]中通过物体检测器获取高性能的物体区域特征的启发,我们进一步去挖掘物体和物体之间的关系(GCN-LSTM [2]),构建出物体间语义和空间的关系图,从而促进对图像的理解。尽管物体间关系图有效地引入了物体间关系的语义信息,但依然无法充分表达整个图像所包含的丰富语义。故在2019年,我们提出了一种多层次的树形语义结构(HIP [3]),它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不同层级之间的语义信息。通过这样一种树形结构可以实现对物体不同层次间语义关联性的编码,以解码出更为精准的描述文本。 》》交互: 视觉与语言发展的第一阶段自洽可以看做是每个文化独立的发展史,所衍生的算法模型也大多是视觉编码器和语言解码器的简单串联。然而没有一种文化可以在发展中独善其身,互相调和与交互将是必然。因此现今的视觉与语言渐渐步入交互的阶段,目的是促进视觉编码器和语言解码器间的信息交互。 注意力机制(Attention Mechanism)是不同模态间最典型的信息交互手段。它可以通过每一时刻解码器的隐状态来推断当前编码器中需要关注的图像区域,以此帮助编码器更好地理解图像内容。如下图,早期的注意力机制soft-attention [7]会依据条件特征Q(解码器当前的隐状态)与每一个图像局部区域特征K的线性融合来获取该区域对应的注意力权重,再将每一个注意力权重作用于局部区域特征V实现图像特征的聚合编码。在这两年也涌现了多种升级版本的注意力机制,比如自顶向下的top-down attention (Bottom-Up [6])、同时捕捉多种注意力的multi-head attention(Transformer [8])和利用门控进一步过滤注意力的attention on attention(AoANet [9])。 rId10 当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的CVPR 2020工作X-LAN [4]中打造了一个能实现高阶特征交互的注意力机制X-Linear attention。它可以利用双线性融合技术去挖掘不同模态间二阶乃至更高阶的特征交互信息,以增强跨模态的内容理解。 同时,该X-Linear attention可以作为一个灵活的插件接入到目前流行的各种图像描述生成模型中,极大地提升编码器和解码器在模态内和跨模态间的特征交互能力。我们也在最为权威的COCO在线评测系统上对所设计的图像描述生成系统进行测试,在多个指标上均达到世界第一的水平(如下图)。 》》共生: (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |