加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 点评 > 正文

NLP/CV模型跨界,视觉Transformer赶超CNN?

发布时间:2020-10-08 19:30:06 所属栏目:点评 来源:51cto
导读:在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位。不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果。近日,一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像,提出了一个新的 Visio

ViT 模型可以处理任意序列长度(取决于内存约束),但预训练位置嵌入或许不再具有意义。所以,研究者根据预训练位置嵌入在原始图像中的位置,对它们进行 2D 插值操作。需要注意的是,只有在分辨率调整和 patch 提取中,才能将 2D 图像的归纳偏置手动注入到 ViT 模型中。

实验

该研究进行了大量实验,并使用了多个 ViT 模型变体,参见下表 1:

NLP/CV模型跨界,视觉Transformer赶超CNN?

与 SOTA 模型的性能对比

研究者首先将最大的 ViT 模型(在 JFT-300M 数据集上预训练的 ViT-H/14 和 ViT-L/16)与 SOTA CNN 模型进行对比,结果参见下表 2。

NLP/CV模型跨界,视觉Transformer赶超CNN?

表 2:ViT 模型与 SOTA 模型在流行图像分类基准数据集上的性能对比。

从上表中可以看出,规模较小的 ViT-L/16 模型在所有数据集上的性能堪比或者超过 BiT-L,同时它需要的算力也少得多。较大的 ViTH-14 模型进一步提升了性能,尤其在更具挑战性的数据集上,如 ImageNet、CIFAR-100 和 VTAB。ViTH-14 模型在所有数据集上的性能匹配或超过 SOTA,甚至在某些情况下大幅超过 SOTA 模型(如在 CIFAR-100 数据集上的性能高出 1%)。在 ImageNet 数据集上,ViT 模型的性能比 Noisy Student 低了大约 0.1%,不过在具备更干净 ReaL 标签的 ImageNet 数据集上,ViT 的性能超过 SOTA 模型。

下图 2 将 VTAB 任务分解为多个组,并对比了 ViT 与 SOTA 方法的性能,这些方法包括 BiT、VIVI 和 S4L。

在 Natural 任务中,ViT-H/14 的性能略低于 BiT-R152x4;在 Specialized 任务中,ViT 的性能超过 BiT 等方法;而在 Structured 任务中,ViT 显著优于其他方法。

NLP/CV模型跨界,视觉Transformer赶超CNN?

预训练数据要求

Vision Transformer 在大型 JFT-300M 数据集上进行预训练后表现出了优秀的性能。在 ViT 的归纳偏置少于 ResNet 的情况下,数据集规模的重要性几何呢?该研究进行了一些实验。

首先,在规模逐渐增加的数据集(ImageNet、ImageNet-21k 和 JFT300M)上预训练 ViT 模型。下图 3 展示了模型在 ImageNet 数据集上的性能:

NLP/CV模型跨界,视觉Transformer赶超CNN?

下表 3 展示了模型在 ImageNet、ImageNet-21k 和 JFT300M 数据集上的性能对比情况。在前两个规模较小的数据集上,ViT-Large 模型的性能不如 ViT-Base,但在规模较大的 JFT300M 数据集上,大模型展现出了优势。这说明,随着数据集规模的增大,较大的 ViT 模型变体优于较小的模型。

NLP/CV模型跨界,视觉Transformer赶超CNN?

其次,研究者在 JFT300M 数据集的 9M、30M 和 90M 随机子集以及完整数据集上进行了模型训练。结果参见下图 4:

NLP/CV模型跨界,视觉Transformer赶超CNN?

从图中可以看到,在较小的数据集和相同的计算成本下,Vision Transformer 比 ResNet 更加过拟合。该结果强化了这一认知:卷积归纳偏置对于规模较小的数据集较为有用,但对于较大的数据集而言,学习相关模式就足够了,甚至更加有效。

可扩展性研究

研究人员对不同模型执行了受控可扩展性研究(scaling study)。下图 5 展示了模型在不同预训练计算成本情况下的迁移性能:

NLP/CV模型跨界,视觉Transformer赶超CNN?

实验结果表明:

Vision Transformer 在性能 / 算力权衡中显著优于 ResNet。

混合模型在较小计算成本的情况下略优于 ViT,但在计算成本较高时,这一现象消失。该结果令人吃惊。

Vision Transformer 在实验尝试的算力范围内似乎并未饱和,未来可以进行更多可扩展性研究。

ViT 如何处理图像数据?

为了了解 ViT 处理图像数据的过程,研究者分析了其内部表示。

ViT 的第一层将扁平化后的图像块线性投影至低维空间(公式 1),下图(左)展示了学得嵌入滤波器的主要组件。投影后,将学得的位置嵌入添加至图像块表示。下图(中)展示了模型学习编码图像内的距离,表明距离越近的图像块更有可能具备更相似的位置嵌入。自注意力允许 ViT 集成整个图像的信息,即使最低层也不例外。研究者调查了 ViT 网络利用这一能力的程度。具体而言,该研究计算图像空间中的平均距离(基于注意力权重)参见下图右。「注意力距离」类似于 CNN 中的感受野大小。

NLP/CV模型跨界,视觉Transformer赶超CNN?

ViT 模型关注与分类具备语义相关性的图像区域,参见图 6:

NLP/CV模型跨界,视觉Transformer赶超CNN?

在知乎问题「ICLR 2021 有什么值得关注的投稿?」下,多个回答提及了这篇论文,有解读也有吐槽。更有网友表示:「我们正站在模型大变革的前夜,神经网络的潜力还远远没到尽头。一种崭新的强大的,足以颠覆整个 CV 和 AI 界的新模型才露出冰山一角,即将全面来袭。」

NLP/CV模型跨界,视觉Transformer赶超CNN?

参考链接:

https://openreview.net/pdf?id=YicbFdNTTy

https://www.zhihu.com/question/423975807

如何根据任务需求搭配恰当类型的数据库?

在AWS推出的白皮书《进入专用数据库时代》中,介绍了8种数据库类型:关系、键值、文档、内存中、关系图、时间序列、分类账、领域宽列,并逐一分析了每种类型的优势、挑战与主要使用案例。

 

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读