Manning、Ostendorf、Povey、何晓冬、周明共话多模态NLP的机遇和挑战

发布时间：2020-07-16 22:09:12 所属栏目：动态来源：站长网

导读：圆桌论坛 AI新疆域：多模态自然语言处理前沿趋势主持人：何晓冬，京东集团技术副总裁智源学者论坛嘉宾： Christopher Manning：斯坦福人工智能实验室（SAIL）主任 Mari Ostendorf：华盛顿大学电子与计算机工程系教授周明：微软亚洲研究院副院长 Daniel

圆桌论坛 AI新疆域：多模态自然语言处理前沿趋势

主持人：何晓冬，京东集团技术副总裁智源学者

论坛嘉宾：

Christopher Manning：斯坦福人工智能实验室（SAIL）主任

Mari Ostendorf：华盛顿大学电子与计算机工程系教授

周明：微软亚洲研究院副院长

Daniel Povey：小米集团语音首席科学家

语音、文本、图像等单一模态领域，在以深度学习为主的机器学习算法的推动下，已经取得了巨大的成功。然而在复杂情况下，完整的信息会同时涉及多种模态；利用单一模态信息来完成任务，往往力不从心。因此，近年来多模态机器学习研究逐渐发展起来，并取得了许多重大进展，成为了人工智能的一个重要分支。但多模态研究仍处于起步阶段，其中既面临着巨大的挑战，也存在着巨大的机遇。

Manning、Ostendorf、Povey、何晓冬、周明共话多模态NLP的机遇和挑战

那么，在自然语言处理领域，多模态研究又将怎样发展呢？围绕这一问题，6月22日，在第二届智源大会上举行的“语音与自然语言处理专题论坛”中，由京东集团技术副总裁、智源学者何晓冬主持召开了“AI新疆域：多模态自然语言处理”的圆桌论坛”，斯坦福人工智能实验室（SAIL）主任Christopher Manning、华盛顿大学电子与计算机工程教授 Mari Ostendorf、微软亚洲研究院副院长周明、小米集团语音首席科学家 Daniel Povey 等在线上汇聚一堂，就多模态自然语言处理发展中的关键问题进行了深度对话。

构建多模态知识库很重要

何晓冬：随着研究者们把目光聚焦在纯文本之外的其它模态的信息，自然语言处理领域迎来的新的机遇和挑战，人们很希望能从多模态数据中获益。另一方面，在过去的几年当中，人们越来越关注对数据的研究，并开始在大规模数据集上预训练。规模庞大的数据虽至关重要，但在多模态多轮对话等复杂的应用场景下，光靠大量的文本数据是不够的，还需要尽可能多的所谓的“知识”。那么“多模态知识驱动的自然语言处理”这一关键问题，接下来的几年里会有怎样的技术突破和发展呢？最近的突破是大规模预训练模型BERT，以及其它大量数据注入的模型和处理大规模数据的新算法。那么多模态知识驱动的自然语言处理是否会带来类似的突破呢？

Christopher Manning：在60、70、80年代研究者眼里，一个很自然的想法就是如何用具有知识的算法来得到更好的智能推断的效果。但在当时建立一个完备的基于知识库的系统是很困难的。尽管如此，还是有人不断的在建立完备的知识库上不断努力。现在看来，很多人相信这样的想法似乎是错误的，因为目前我们可以在一个领域内通过大量的训练数据得到不错的知识表示效果。然而，最近许多多模态相关的研究证明，超越文本的多模态知识库是非常重要且困难的。我们想要的知识并不是像从百科全书中抽取词条那么简单，例如要判断一个人是否喜欢牛仔裤，需要了解关于这个人本身的许多背景知识，这些知识可以从对话中提取，也可以从其他模态的数据中获取。如果能很好的获取感兴趣内容的多模态的完整知识，那么将对多轮对话领域发展起到重要作用。

何晓冬：谢谢Christopher教授精彩的分析，这让我想起Mari在演讲中讲到：自然语言处理中常用的“背景信息”应该是随着时间和状态发生变化的，而非一个静态的知识表示，Mari关于语言背景信息的定义和你说的用户相关信息很相似。Mari如何看待这一观点呢？

Mari Ostendorf：我同意Christopher教授的观点，用户相关的背景信息用于建模是很重要的，人们日常在谈论某一件事情的时候往往综合了许多不同的信息。在需要快速反应的对话系统中，往往需要从一个对话场景快速切换到另一个场景，好的知识表示有助于快速得到信息。想要把任何东西都用一大串文本来表示是不现实的，用科学的知识表示显得尤为重要。好的知识表示应当具有“进化”能力，能够随着时间变化。当然了，知识表示存在一定的信息冗余，人们可以有选择地运用这些知识表示。

多模态数据如何驱动NLP的发展

何晓冬：Mari教授提到知识并不一定是必须有用的，但却是我们必须具备的，可以有选择性的使用，这个观点非常有趣。与多知识相关的研究也包括了多任务、多语言和多模态学习，这些在不同任务上分布的数据来源非常广泛，但往往结构性不强。这类多模态数据将如何驱动NLP领域的发展呢？

周明：知识表示是非常重要的，但同样重要的一点是哪类知识是我们真正需要的。知识可以分为共性的、任务相关的、开放领域等多种类型。我们的语言学知识更依赖于具体的任务。尽管预训练模型可以学习到许多共性的知识，但真正在下游任务上使用的话，还需要进一步用任务相关的数据来训练模型。举个问答系统的例子来说，仅仅靠以往发布的训练数据就可以训练一个不错的模型吗？我想不是的，好的问答系统应当对对话场景有一个比较好的适应，用户满意的不是共性答案，而是那些最适合具体问题场景的答案。总而言之，从包括视觉、语言等多模态数据中尽可能广泛的获取知识是非常重要的，但更为重要的是如何在特定场景下有选择性的使用这些知识。多模态预训练就是一个很好的获取跨模态的知识的方式，未来还有很多多模态预训练相关的工作可以做。

何晓冬：周明老师的观点很有启发性，为了抽取出真正需要的知识，把预训练得到的知识和任务相关的知识进行结合更能够适应现实任务的需要。人类的语言内容要通过语音发出，Daniel是语音方面的专家，您怎么看待多模态知识这个问题呢？

Daniel Povey：在我看来语音信号本身和知识关系不大，因为语音信号的发出是物理过程，知识是无法通过语音信号和语音模型区分的。所以从单纯的语音到知识过程，似乎研究意义不大，但通过语言这一桥梁就可以连接语音和知识了，所以语音这一模态的信息更依赖于通过语言来体现。

值得期待的技术突破

何晓冬：人类说出话语的过程实际上是语言表达的过程，也是知识传递的过程。由于知识结构的复杂性，不同的研究方向会有不同的解读。不过从当下的研究进展来看，预训练的确是目前最好的从文本语言中获取知识的手段。超越文本的知识需要新的解决方案，刚才Mari提到背景知识用于建模的方法，及知识表示应具有进化能力的观点非常精彩。周明博士则从如何获取有用知识的角度进行了分析。事实上，NLP领域最近也逐渐从纯文本的研究迈向了多模态研究，例如融合文本和视觉信息。同样随之而来也有许多有趣的应用，例如图片问答、多模态对话系统等等。自然语言处理领域的发展非常十分迅速，不仅带动了许多任务相关领域的进步，也推动了语言模型本身如BERT的发展。多模态作为自然语言处理的新的突破口，Manning博士，在您看来最值得期待的进展和技术突破是什么？

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力