Manning、Ostendorf、Povey、何晓冬、周明共话多模态NLP的机遇和挑战
Christopher Manning:多模态确实是一个值得探索的方向,也能看出来有许多有趣的工作值得去做,比如图片标题生成、视觉问答等。我比较期待的发展方向是从多模态角度出发,综合多种信息来回答一系列问题的智能体的出现,并能实现多种信息之间的交互,这些信息中相当一部分来自非语言学知识。
何晓冬:事实上,人们已经开始研究Manning教授所说的多模态信息交互了 。智源发布的多模态对话数据集和挑战赛正是为了推动多模态信息交互而开展的。刚才Mari教授也提到,不同的信号处理能够得到不同的模态数据,不仅仅可以从图像、文本角度出发,也可以从音频本身的频率信息出发获取有用的音频模态信息,Mari教授可以详细说一些这个思路吗?
Mari Ostendorf:我认为多模态信息除了图像和文本,音频中也存在大量信息,比如音频的韵律对分析一个人说话的情感就非常重要。另外,多人对话的研究将是一个新的研究方向。在多人讨论的场景下,准确地识别当前在和哪个人对话是一项必要工作。此外,如何利用更多模态的信息,来更好的实现人机交互也是需要不断努力的方向。另一个可研究方向是刚才Manning教授提到的类人智能体,与智能体交互的时候,智能体应该能和人一样,对周围的环境有一个比较强的视觉辨识能力,也应该对对话内容有一个全面的认识,几种模态之间信息的对齐和筛选是至关重要的。
何晓冬:在一个非常复杂的场景当中,如果想要实现Mari教授所说的,复杂环境下的交互的智能体,那必然就需要许多传感器来获取多种信息,并这些信息进行进一步的区分和汇总。谈到多种信息,我想起周明老师在演讲中提到了多语言学习的相关研究,那假如我们想要一个智能体能够懂得一百种语言,自然就需要跨语言学习,关于多模态信息的跨语言学习研究,我们可以有什么期待呢? 周明:刚才Mari教授和Manning教授所说的观点我是很赞同的,我从实际产业视角下来看也能得出类似的结论。不过从产业上的大数据量、深层次模型和大规模应用的要求之下,如何灵活有效的训练多语言和多模态模型是一个至关重要的问题。数据是模型的第一个关键点,首先要构建一个具有统一范式的多模态数据库,并不断在有趣的任务上进行尝试。如何获得足够大量、准确、多方面的多模态数据本身就是一个不小的挑战。其次,要找到新方法来高效训练具有强适应能力的深度模型。产业界也很关注用户体验,好的客户服务需要了解客户多方面的信息,好的多模态语言处理也应当利用与语言信息有关的其它信息。当构建了大规模多模态数据集之后,如何对信息进行有效整合,是对研究人员提出的新的挑战。
何晓冬:从周明博士的分析看来,尽管大家面对的是同样的科学问题,产业界和学术界确实也还有着不一样的要求。那么我想问一下Daniel作为产业界的语音处理专家,在处理语音的时候,会不会考虑情感等信息呢?
Daniel Povey:我对语音识别领域有着挺长时间的研究,开发和维护了语音识别开源工具 Kaldi,目前我们已经能够成功的进行语音到文本的转换。但音频信息的利用还有很大的前景。如果能有效的对音频中的音调、音色、韵律等信息进行分析提取,获取到的也将会是很有用的多模态信息。当前对大规模多模态数据的标注面临一些挑战。例如如何对大规模的音频和视频数据进行标注,粒度应当如何,什么样的标签信息是真正有意义的,这些问题都值得去深入探索。 何晓冬:非常感谢几位专家学者从自己的研究兴趣出发,对多模态自然语言处理的研究做了鞭辟入里的分析。多模态方向的研究从数据构建、建模方法、评估标准、训练算法等多个角度来讲都是一个较新的领域,也是很有发展前景的方向,未来多模态自然语言处理的研究方向将大有可为。 关于2020 北京智源大会 北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2020年6月21日-24日,为期四天的2020北京智源大会在线上圆满举办。来自20多个国家和地区的150多位演讲嘉宾,和来自50多个国家、超过50万名国内外专业观众共襄盛会。 以上文章来自于2020北京智源大会嘉宾演讲的整理报道系列,整理:智源社区 亓麟。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |