73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

发布时间：2020-07-29 17:41:40 所属栏目：模式来源：51cto

导读：在近期举行的第 43 届国际信息检索年会 (ACM SIGIR2020) 上，Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。 Geoffrey Hinton 是谷歌副总裁、工程研究员，也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣

在近期举行的第 43 届国际信息检索年会 (ACM SIGIR2020) 上，Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。

Geoffrey Hinton 是谷歌副总裁、工程研究员，也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年，他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。

自 20 世纪 80 年代开始，Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究，他希望通过人脑运作方式探索机器学习系统。受人脑的启发，他和其他研究者提出了「人工神经网络」（artificial neural network），为机器学习研究奠定了基石。

那么，30 多年过去，神经网络的未来发展方向在哪里呢？

Hinton 在此次报告中回顾了神经网络的发展历程，并表示下一代神经网络将属于无监督对比学习。

Hinton 的报告主要内容如下：

人工神经网络最重要的待解难题是：如何像大脑一样高效执行无监督学习。

目前，无监督学习主要有两类方法。

第一类的典型代表是 BERT 和变分自编码器（VAE），它们使用深度神经网络重建输入。但这类方法无法很好地处理图像问题，因为网络最深层需要编码图像的细节。

另一类方法由 Becker 和 Hinton 于 1992 年提出，即对一个深度神经网络训练两个副本，这样在二者的输入是同一图像的两个不同剪裁版本时，它们可以生成具备高度互信息的输出向量。这类方法的设计初衷是，使表征脱离输入的不相关细节。

Becker 和 Hinton 使用的优化互信息方法存在一定缺陷，因此后来 Pacannaro 和 Hinton 用一个判别式目标替换了它，在该目标中一个向量表征必须在多个向量表征中选择对应的一个。

随着硬件的加速，近期表征对比学习变得流行，并被证明非常高效，但它仍然存在一个主要缺陷：要想学习具备 N bits 互信息的表征向量对，我们需要对比正确的对应向量和 2 N 个不正确的向量。

在演讲中，Hinton 介绍了一种处理该问题的新型高效方式。此外，他还介绍了实现大脑皮层感知学习的简单途径。

接下来，我们来看 Hinton 演讲的具体内容。

为什么我们需要无监督学习？

在预测神经网络的未来发展之前，Hinton 首先回顾了神经网络的发展进程。

演讲一开始，Hinton 先介绍了三种学习任务：监督学习、强化学习和无监督学习，并重点介绍了无监督学习的必要性。

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

为什么我们需要无监督学习呢？

Hinton 从生物学的角度做出了诠释。他指出，人类大脑有 10^14 个神经元突触，而生命的长度仅有 10^9 秒，因此人类无法完全依赖监督学习方式完成所有神经元训练，因而需要无监督学习的辅助。

受此启发，构建智能模型也需要无监督学习。

无监督学习的发展历程

无监督学习经过怎样的发展呢？Hinton 为我们介绍了无监督学习中的常见目标函数。

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

紧接着，Hinton 详细介绍了自编码器。

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

Hinton 表示，自编码器是一种利用监督学习实现无监督学习的方式，其目标是使最后的重建结果与数据相匹配。编码器将数据向量转换为代码，解码器基于代码生成数据。

在高屋建瓴地介绍了自编码器的定义、训练深度自编码器之前的难点和现状之后，Hinton 着重介绍了两种自编码器类型：变分自编码器和 BERT 自编码器。

使用深度神经网络重建输入：VAE 和 BERT

BERT 和变分自编码器（VAE）是无监督学习的一类典型代表，它们使用深度神经网络重建输入。

变分自编码器由韦灵思和 Kingma 于 2013 年提出，它使用多层编码器选择实数代码，然后用多层解码器重建数据。VAE 的基本构造如下图所示：

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

BERT

是 2018 年谷歌提出的语言表征模型，基于所有层的左、右语境来预训练深度双向表征。

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

语境信息对 BERT 非常重要，它利用遮蔽语言模型（masked language model，MLM）允许表征融合左右两侧的语境，从而预训练深度双向 Transformer。

Hinton 举了一个例子：「She scromed him with the frying pan」。在这个句子中，即使你不知道 scromed 的意思，也可以根据上下文语境进行推断。

视觉领域也是如此。然而，BERT 这类方法无法很好地应用到视觉领域，因为网络最深层需要编码图像的细节。

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

在探讨了以 VAE 和 BERT 为代表的一类无监督学习方法后，Hinton 为我们介绍了另一类无监督学习方法。

Becker 和 Hinton 提出最大化互信息方法

那么自编码器和生成模型有没有什么替代方案呢？Hinton 表示，我们可以尝试不再解释感官输入（sensory input）的每个细节，而专注于提取空间或时序一致性的特征。与自编码器不同，这种方法的好处在于可以忽略噪声。

然后，Hinton 详细介绍了他与 Suzanna Becker 在 1992 年提出的一种提取空间一致性特征的方法。该方法的核心理念是对输入的两个非重叠块（non-overlapping patch）表示之间的显式互信息进行最大化处理。Hinton 给出了提取空间一致性变量的简单示例，如下图所示：

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

经过训练，Hinton 指出唯一的空间一致性特征是「不一致性」（The Only Spatially Coherent Property is Disparity），所以这也是必须要提取出来的。

他表示这种最大化互信息的方法存在一个棘手的问题，并做出以下假设，即如果只学习线性映射，并且对线性函数进行优化，则变量将成为分布式的。不过，这种假设并不会导致太多问题。

以往研究方法回顾

在这部分中，Hinton 先后介绍了 LLE、LRE、SNE、t-SNE 等方法。

局部线性嵌入方法（Locally Linear Embedding, LLE）

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页