NLP/CV模型跨界，视觉Transformer赶超CNN?

发布时间：2020-10-08 19:30:06 所属栏目：点评来源：51cto

导读：在计算机视觉领域中，卷积神经网络（CNN）一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出了一个新的 Visio

在计算机视觉领域中，卷积神经网络（CNN）一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出了一个新的 Vision Transformer 模型，并在多个图像识别基准上实现了接近甚至优于当前 SOTA 方法的性能。

10 月 2 日，深度学习领域顶级会议 ICLR 2021 论文投稿结束，一篇将 Transformer 应用于图像识别的论文引起了广泛关注。

特斯拉 AI 负责人 Andrej Karpathy 转发了该论文，并表示「乐见计算机视觉和 NLP 领域日益融合」。

NLP/CV模型跨界，视觉Transformer赶超CNN?

前有 Facebook将 Transformer 应用于目标检测任务、OpenAI 用 GPT-2 做图像分类的尝试，这篇「跨界」论文又有哪些新尝试呢？

Transformer 架构早已在自然语言处理任务中得到广泛应用，但在计算机视觉领域中仍然受到限制。在计算机视觉领域，注意力要么与卷积网络结合使用，要么用来代替卷积网络的某些组件，同时保持其整体架构不变。

该研究表明，对 CNN 的依赖不是必需的，当直接应用于图像块序列时，transformer 也能很好地执行图像分类任务。该研究基于大量数据进行模型预训练，并迁移至多个图像识别基准数据集（ImageNet、CIFAR-100、VTAB 等），结果表明 Vision Transformer（ViT）模型可以获得与当前最优卷积网络相媲美的结果，而其训练所需的计算资源大大减少。

NLP 领域中的 Transformer VS 计算机视觉领域中的 CNN

基于自注意力的架构，尤其 Transformer，已经成为 NLP 领域的首选模型。该主流方法基于大型文本语料库进行预训练，然后针对较小的任务特定数据集进行微调。由于 Transformer 的计算效率和可扩展性，基于它甚至可以训练出参数超过 100B 的模型。随着模型和数据集的增长，性能仍然没有饱和的迹象。

然而，在计算机视觉中，卷积架构仍然占主导地位。受 NLP 成功的启发，多项计算机视觉研究尝试将类 CNN 架构与自注意力相结合，有的甚至完全代替了卷积。后者虽然在理论上有效，但由于其使用了专门的注意力模式，因此尚未在现代硬件加速器上有效地扩展。因此，在大规模图像识别任务中，经典的类 ResNet 架构仍然是最先进的。

Transformer 向视觉领域的跨界融合

受到 NLP 领域中 Transformer 缩放成功的启发，这项研究尝试将标准 Transformer 直接应用于图像，并尽可能减少修改。为此，该研究将图像分割成多个图像块（patch），并将这些图像块的线性嵌入序列作为 Transformer 的输入。然后用 NLP 领域中处理 token 的方式处理图像块，并以监督的方式训练图像分类模型。

在中等规模的数据集（如 ImageNet）上训练时，这样的模型产生的结果并不理想，准确率比同等大小的 ResNet 低几个百分点。这个看似令人沮丧的结果是可以预料的：Transformer 缺少一些 CNN 固有的归纳偏置，例如平移同变性和局部性，因此在数据量不足的情况下进行训练后，Transformer 不能很好地泛化。

但是，如果在大型数据集（14M-300M 张图像）上训练模型，则情况大为不同。该研究发现大规模训练胜过归纳偏置。在足够大的数据规模上进行预训练并迁移到数据点较少的任务时，Transformer 可以获得出色的结果。

该研究提出的 Vision Transformer 在 JFT-300M 数据集上进行预训练，在多个图像识别基准上接近或超过了 SOTA 水平，在 ImageNet 上达到了 88.36% 的准确率，在 ImageNet ReaL 上达到了 90.77% 的准确率，在 CIFAR-100 上达到了 94.55% 的准确率，在 VTAB 基准 19 个任务中达到了 77.16% 的准确率。

模型和方法

研究者尽可能地遵循原始 Transformer 的设计。这种故意为之的简单设置具有以下优势，即可扩展 NLP Transformer 架构和相应的高效实现几乎可以实现开箱即用。研究者想要证明，当进行适当地扩展时，该方法足以超越当前最优的卷积神经网络。

Vision Transformer（ViT）

该研究提出的 Vision Transformer 架构遵循原版 Transformer 架构。下图 1 为模型架构图。

标准 Transformer 接收 1D 序列的 token 嵌入为输入。为了处理 2D 图像，研究者将图像 x ∈ R^H×W×C 变形为一系列的扁平化 2D patch x_p ∈ R^N×(P^2 ·C)，其中 (H, W) 表示原始图像的分辨率，(P, P) 表示每个图像 patch 的分辨率。然后，N = HW/P^2 成为 Vision Transformer 的有效序列长度。

Vision Transformer 在所有层使用相同的宽度，所以一个可训练的线性投影将每个向量化 patch 映射到模型维度 D 上（公式 1），相应的输出被称为 patch 嵌入。

NLP/CV模型跨界，视觉Transformer赶超CNN?

与 BERT 的 [class] token 类似，研究者在一系列嵌入 patch （z_0^0 = x_class）之前预先添加了一个可学习嵌入，它在 Transformer 编码器（z_0^L ）输出中的状态可以作为图像表示 y（公式 4）。在预训练和微调阶段，分类头（head）依附于 z_L^0。

位置嵌入被添加到 patch 嵌入中以保留位置信息。研究者尝试了位置嵌入的不同 2D 感知变体，但与标准 1D 位置嵌入相比并没有显著的增益。所以，编码器以联合嵌入为输入。

Transformer 编码器由多个交互层的多头自注意力（MSA）和 MLP 块组成（公式 2、3）。每个块之前应用 Layernorm（LN），而残差连接在每个块之后应用。MLP 包含两个呈现 GELU 非线性的层。

NLP/CV模型跨界，视觉Transformer赶超CNN?

作为将图像分割成 patch 的一种替代方案，输出序列可以通过 ResNet 的中间特征图来形成。在这个混合模型中，patch 嵌入投影（公式 1）被早期阶段的 ResNet 取代。ResNet 的其中一个中间 2D 特征图被扁平化处理成一个序列，映射到 Transformer 维度，然后馈入并作为 Transformer 的输入序列。最后，如上文所述，将分类输入嵌入和位置嵌入添加到 Transformer 输入中。

微调和更高分辨率

研究者在大型数据集上预训练 ViT 模型，并针对更小规模的下游任务对模型进行微调。为此，研究者移除了预训练预测头，并添加了一个零初始化的 D × K 前馈层，其中 K 表示下游类的数量。与预训练相比，在更高分辨率时进行微调通常更有益处。当馈入更高分辨率的图像时，研究者保持 patch 大小不变，从而得到更大的有效序列长度。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页