周伯文对话斯坦福教授曼宁：人机对话智能新进展需要新「图灵测试」

发布时间：2020-06-29 11:04:48 所属栏目：动态来源：站长网

导读：以下文章来源于机器之心 ,作者Synced (导语)6 月 22 日,在 2020 智源大会上,有一场大佬对大佬的精彩会谈。过去一年里,人工智能进展最大的方向在自然语言处理(NLP),BERT、GPT-2 等预训练模型引领了很多方向的新时代,又催生出了大量商业应用机会。面对技术

据了解,京东智联云在跨模态内容生成上已取得诸多成果,并正式应用到京东的业务流程中。目前京东智联云打造的智能写作产品,是基于商品图谱和语言模型构建的营销内容智能生成服务,在2020年京东618期间,已覆盖过京东零售过半数的商品品类,创作出的导购素材,曝光点击率相较于人工撰写的内容高出40%,让用户在大促高峰期间也享受到优质服务。

这样一些接近实用化的方向已经受到了 NLP 新范式的帮助。毫无疑问,使用预训练的模型现在可以生成很自然的文本以及对话。但目前的预训练模型还称不上完美,曼宁指出,我们还没法控制这些模型生成的内容。

超越图灵测试的 AI 新基准

若想实现更好的人工智能,我们必须拥有完美的评测基准(Benchmark),几十年以来我们一直将图灵测试作为「真正人工智能」的测试标准。但图灵测试是以 AI 模仿人类,试图「欺骗」测试者进行无特定内容对话的形式来进行的。对于研究者来说,这个过程一直存在难以量化的问题。

在 NLP 技术发展多年后的今天,「我们会不会出现可以代替图灵测试的新基准呢?」周伯文在对话中提出了这个问题,「过去的几十年中,图灵测试一直是基准,但是在日常研究中,它让我们的研究目标变得明确,对结果推动又没有太多直接的帮助。」

「这个问题很有趣,也很难回答,」曼宁表示。「我同意这个看法——图灵测试不是非常清楚的基准。某种程度上我们需要找一个另外的方法,标量真正的理解、真正的持续对话。但我一时没法给出完美的答案。」

不过周伯文有一个「稍显疯狂」的主意,有关最近正火的直播带货:热门主播几个小时可以带几千万元的货。这种互动形式看起来非常吸引人,究其根本,它是一个实时的、富有交互性的方式。在这里播主和观众用弹幕和语音实时交流,这似乎为对话型 AI 提出了更多的要求。

原本的图灵测试,不会预先指出被测试者的身份,通过评判相似性去界定智能化水平;那么,我们是不是可以直接公开使用两个对话型 AI 做直播带货,通过统计以每小时能卖出多少商品的可量化指标来对比哪个 AI 的对话更吸引人,从而评估对话型AI的智能化水平?

这样的话,所有评价指标都可以量化,形式也非常接近于真实世界。

「这是一个非常有趣的想法,可以带来非常清楚的评价指标,」曼宁表示。「直播对于我来说是一个很新鲜的概念,某种程度上来说,这是一个非常直接的评价方式。我不清楚是否完美,但它很有创意:一个人类销售想要成功,并不取决于对潜在消费者传递信息的完美平衡,有时还需要提出超出实际一点点的主张,更加强烈地表达自己的观点。」

周伯文表示,在未来几个月里,京东会对这个方向进行一些尝试和研究。

学术界如何在预训练时代引领前瞻性研究

今天的人工智能研究正凭借算力的增长而快速发展,随着模型体量的增加,学界研究者面临的挑战越来越大。对于研究者们来说,即使希望方法足够创新,也会在大会上宣讲论文时受到这样的挑战:「你使用的基准是最新的吗?」这意味着你不得不直面大量数据。

周伯文表示:「近来,我常被问到一个问题,在如今的云计算+AI时代,研究人员和学者如何跟上?」

据了解,2019年底,京东整合云计算、人工智能、物联网业务资源,形成京东云与AI事业部,并于3月5日面向技术服务领域推出全新的「京东智联云」品牌。在刚刚过去的京东618,京东智联云提供了全面、稳定、安全、可信赖的技术保障,成为京东618的技术基石,并秉持着「成为最值得信赖的智能技术提供者」的愿景,对外输出更多、更好、更融合、更场景化的技术与服务。

目前云服务在商业公司中的布局已日趋成熟。那么在斯坦福大学,教授们是怎样平衡增量创新与理论创新的?研究者们是如何使用算力的?

「近年来我们的工作方式有了很大变化。在 20 年前,大学里才有最大的超级计算机、最快的网络。但在最近这些年里,情况有了翻天覆地的变化——现在算力都在商业公司那里了,」曼宁说道。

如何解决算力不足的问题,每所大学都有不少思路,最直接的方式就是购买数量有限的,当前最顶配的 GPU,让很多博士生共用以满足 80% 时间的需求。「我想这是很多大学都在使用的方法,如果你的实验室里有 20 名博士生,这要比每人配置一台机器节省三倍成本,」曼宁表示。「现在我们构建起了小型集群,斯坦福 NLP 实验室有 15 名研究者,我们有大约 100 块 GPU。你看,这不是一个很大的数字。」

另一个思路就是和京东智联云这样的科技公司合作,在一些需要更多计算的研究中,斯坦福也在购买云端算力。

每年冬天,曼宁都会亲自为斯坦福 NLP 大课 CS224N 授课。这门课可以吸引 500 名学生,他们的作业都需要使用 CPU、GPU 来训练模型,而所有学生在课程期间的算力需求是大学负担不起的。因此,斯坦福接受业界的捐赠。

图片 4.png

(图注)斯坦福的自然语言处理课程 CS224n 与计算机视觉课程 CS231n 齐名,是 AI 领域最具影响力的公开课程之一。

最后,研究方向也是个问题。「让模型越来越大可能在最近五年可以实现很大的进展,但在下个十年就不一定了,」曼宁说道。「我们现在可以构建出更大的模型,然后发出论文。但这个对于基础方向的研究没有什么帮助。未来 5-7 年里可能会出现一个窗口,最聪明的研究者可以用普通电脑和 GPU 构建出 SOTA 模型,打败大公司的巨大模型。」

「但未来也有可能不是这样,看看其他行业,如果你是个机械工程的 PhD,你肯定没法上来就盖世界最高的摩天大楼,如果你是个航空工程学生,你肯定不会试图造一架比波音还好的飞机。你需要做的是寻找新的想法。」

研究学者需要更加注重于寻找具有开创性的新想法,并提出原型。举个例子:机器学习领域里的 Dropout,其实是在很小的数据集上首次实践的。

构建可信赖的 AI:可解释性和真实世界的鲁棒性

最近一段时间,周伯文曾在多个不同场合表达了对于可信赖 AI(Trustworth AI)的看法,并指出可信赖的 AI 将是智能经济未来 10 年的新原点。

目前有关可信赖 AI 已经达成 6 个共识,包含公平、鲁棒性(技术的可用性)、价值对齐(技术提供者、使用者和产品应用方都认为产品带来价值)、可复制、可解释以及负责任。构建可信赖的 AI 一面是对技术的巨大挑战,一面是人文精神,无论是京东智能情感客服传递温暖、亦或京东物流设施传递信赖,都是对人类的社会责任与价值体现。

曼宁认为,人工智能学界目前在可解释性方面已经取得了一些进展。一方面是像 transformer 这样的预训练模型,注意力机制带来的好处——这些模型具有相当高的可解释性。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力