加入收藏 | 设为首页 | 会员中心 | 我要投稿应用网_阳江站长网（https://www.0662zz.com/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 创业 > 点评 > 正文

NLP/CV模型跨界，视觉Transformer赶超CNN?

发布时间：2020-10-08 19:30:06 所属栏目：点评来源：51cto

导读：在计算机视觉领域中，卷积神经网络（CNN）一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出了一个新的 Visio

ViT 模型可以处理任意序列长度（取决于内存约束），但预训练位置嵌入或许不再具有意义。所以，研究者根据预训练位置嵌入在原始图像中的位置，对它们进行 2D 插值操作。需要注意的是，只有在分辨率调整和 patch 提取中，才能将 2D 图像的归纳偏置手动注入到 ViT 模型中。

实验

该研究进行了大量实验，并使用了多个 ViT 模型变体，参见下表 1：

NLP/CV模型跨界，视觉Transformer赶超CNN?

与 SOTA 模型的性能对比

研究者首先将最大的 ViT 模型（在 JFT-300M 数据集上预训练的 ViT-H/14 和 ViT-L/16）与 SOTA CNN 模型进行对比，结果参见下表 2。

NLP/CV模型跨界，视觉Transformer赶超CNN?

表 2：ViT 模型与 SOTA 模型在流行图像分类基准数据集上的性能对比。

从上表中可以看出，规模较小的 ViT-L/16 模型在所有数据集上的性能堪比或者超过 BiT-L，同时它需要的算力也少得多。较大的 ViTH-14 模型进一步提升了性能，尤其在更具挑战性的数据集上，如 ImageNet、CIFAR-100 和 VTAB。ViTH-14 模型在所有数据集上的性能匹配或超过 SOTA，甚至在某些情况下大幅超过 SOTA 模型（如在 CIFAR-100 数据集上的性能高出 1%）。在 ImageNet 数据集上，ViT 模型的性能比 Noisy Student 低了大约 0.1%，不过在具备更干净 ReaL 标签的 ImageNet 数据集上，ViT 的性能超过 SOTA 模型。

下图 2 将 VTAB 任务分解为多个组，并对比了 ViT 与 SOTA 方法的性能，这些方法包括 BiT、VIVI 和 S4L。

在 Natural 任务中，ViT-H/14 的性能略低于 BiT-R152x4；在 Specialized 任务中，ViT 的性能超过 BiT 等方法；而在 Structured 任务中，ViT 显著优于其他方法。

NLP/CV模型跨界，视觉Transformer赶超CNN?

预训练数据要求

Vision Transformer 在大型 JFT-300M 数据集上进行预训练后表现出了优秀的性能。在 ViT 的归纳偏置少于 ResNet 的情况下，数据集规模的重要性几何呢？该研究进行了一些实验。

首先，在规模逐渐增加的数据集（ImageNet、ImageNet-21k 和 JFT300M）上预训练 ViT 模型。下图 3 展示了模型在 ImageNet 数据集上的性能：

NLP/CV模型跨界，视觉Transformer赶超CNN?

下表 3 展示了模型在 ImageNet、ImageNet-21k 和 JFT300M 数据集上的性能对比情况。在前两个规模较小的数据集上，ViT-Large 模型的性能不如 ViT-Base，但在规模较大的 JFT300M 数据集上，大模型展现出了优势。这说明，随着数据集规模的增大，较大的 ViT 模型变体优于较小的模型。

NLP/CV模型跨界，视觉Transformer赶超CNN?

其次，研究者在 JFT300M 数据集的 9M、30M 和 90M 随机子集以及完整数据集上进行了模型训练。结果参见下图 4：

NLP/CV模型跨界，视觉Transformer赶超CNN?

从图中可以看到，在较小的数据集和相同的计算成本下，Vision Transformer 比 ResNet 更加过拟合。该结果强化了这一认知：卷积归纳偏置对于规模较小的数据集较为有用，但对于较大的数据集而言，学习相关模式就足够了，甚至更加有效。

可扩展性研究

研究人员对不同模型执行了受控可扩展性研究（scaling study）。下图 5 展示了模型在不同预训练计算成本情况下的迁移性能：

NLP/CV模型跨界，视觉Transformer赶超CNN?

实验结果表明：

Vision Transformer 在性能 / 算力权衡中显著优于 ResNet。

混合模型在较小计算成本的情况下略优于 ViT，但在计算成本较高时，这一现象消失。该结果令人吃惊。

Vision Transformer 在实验尝试的算力范围内似乎并未饱和，未来可以进行更多可扩展性研究。

ViT 如何处理图像数据？

为了了解 ViT 处理图像数据的过程，研究者分析了其内部表示。

ViT 的第一层将扁平化后的图像块线性投影至低维空间（公式 1），下图（左）展示了学得嵌入滤波器的主要组件。投影后，将学得的位置嵌入添加至图像块表示。下图（中）展示了模型学习编码图像内的距离，表明距离越近的图像块更有可能具备更相似的位置嵌入。自注意力允许 ViT 集成整个图像的信息，即使最低层也不例外。研究者调查了 ViT 网络利用这一能力的程度。具体而言，该研究计算图像空间中的平均距离（基于注意力权重）参见下图右。「注意力距离」类似于 CNN 中的感受野大小。

NLP/CV模型跨界，视觉Transformer赶超CNN?

ViT 模型关注与分类具备语义相关性的图像区域，参见图 6：

NLP/CV模型跨界，视觉Transformer赶超CNN?

在知乎问题「ICLR 2021 有什么值得关注的投稿？」下，多个回答提及了这篇论文，有解读也有吐槽。更有网友表示：「我们正站在模型大变革的前夜，神经网络的潜力还远远没到尽头。一种崭新的强大的，足以颠覆整个 CV 和 AI 界的新模型才露出冰山一角，即将全面来袭。」

NLP/CV模型跨界，视觉Transformer赶超CNN?

参考链接：

https://openreview.net/pdf?id=YicbFdNTTy

https://www.zhihu.com/question/423975807

如何根据任务需求搭配恰当类型的数据库？

在AWS推出的白皮书《进入专用数据库时代》中，介绍了8种数据库类型：关系、键值、文档、内存中、关系图、时间序列、分类账、领域宽列，并逐一分析了每种类型的优势、挑战与主要使用案例。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2

相关内容

推荐文章

站长推荐

热点阅读