谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

发布时间：2020-12-25 19:37:26 所属栏目：优化来源：51cto

导读：在机器学习领域大热的分类学习任务中，为了保证训练得到的分类模型具有准确性和高可靠性，一般会作出两个基本假设：用于学习的训练样本与新的测试样本满足独立同分布；必须有足够可用的训练样本才能学习得到一个好的分类模型。但实际情况很难满足这两个

然而，这种直觉却无法解释为什么在迁移学习的许多成功应用中，目标领域和源领域在视觉上差异很大的问题。

图 1 。图片出处：arXiv

为了更清楚地描述特征复用的作用，作者使用了图 1 中包含自然图像（ImageNet）的源域（预训练）和一些与自然图像的视觉相似度低的目标域（下游任务）。

图 2 可以看到，real domain 具有最大的性能提升，因为该域包含与 ImageNet 共享相似视觉特征的自然图像。这能够支撑团队成员的假设 —— 特征复用在迁移学习中起着重要作用。另一方面，在数据差别特别大的时候（CheXpert 和 quickdraw），仍然可以观察到迁移学习带来的明显的性能提升。

谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

除最终性能外，在所有情况下，P-T 的优化收敛速度都比 RI-T 快得多。这也暗示出预训练权重在迁移学习中的优势并非直接来自特征复用。

为了进一步验证该假设，团队修改了下游任务，使其与正常视觉域的距离进一步拉大，尤其是将下游任务的图像划分为相等大小的块并随机排序。

混洗扰乱了那些图像中的高级视觉功能，模型只能抓住浅层特征，而抽象特征没法很好地被提取。

其中，块大小 224*224 的极端情况意味着不进行混洗；在另一种极端情况下，图像中的所有像素都将被混洗，从而使得在预训练中学到的任何视觉特征完全无用。

在本文中，团队成员创造出了一种特殊情况，每个通道的像素都可以独立的移动，并且可以移动到其他通道中。

谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

图 3 。图片出处：arXiv

图 3 显示了不同块大小对最终性能和优化速度的影响。我们可以观察到以下几点：

随着打乱程度的加剧，RI-T 和 P-T 的最终性能都会下降，任务越发困难；

相对精度差异随块尺寸（clipart, real）的减小而减小，说明特征复用很有效果；

quickdraw 上情况相反是由于其数据集和预训练的数据集相差过大，但是即便如此，在 quickdraw 上预训练还是有效的，说明存在除了特征复用以外的因素；

P-T 的优化速度相对稳定，而 RI-T 的优化速度随着块尺寸的减小时存在急剧的下降。这表明特征复用并不是影响 P-T 训练速度的主要因素。

由上述实验得出结论，特征复用在迁移学习中起着非常重要的作用，尤其是当下游任务与预训练域共享相似的视觉特征时。但是仍存在其他因素，例如低级别的统计信息，可能会带来迁移学习的显着优势，尤其是在优化速度方面。

失误和特征相似性

这部分主要通过探究不同模型有哪些 common mistakes 和 uncommon mistakes 来揭示预训练的作用。

为了理解不同模型之间的差异，作者首先比较两个 P-T，一个 P-T 加一个 RI-T 和两个 RI-T 之间的两类错误率并发现 P-T 和 RI-T 模型之间存在许多 uncommon mistakes，而两个 P-T 的 uncommon mistakes 则要少得多。对于 CheXpert 和 DomainNet 目标域，都是这种情况。

在 DomainNet 上可视化每个模型的两类错误并观察得到，P-T 不正确和 RI-T 正确的数据样本主要包括模棱两可的例子；而 P-T 是正确的数据样本和 RI-T 是不正确的数据样本也包括许多简单样本。

这符合假设，P-T 在简单样本上的成功率很高，而在比较模糊难以判断的样本上比较难 (而此时 RI-T 往往比较好)，说明 P-T 有着很强的先验知识，因此很难适应目标域。

为了加强对上述想法的验证，团队成员又对特征空间中两个网络的相似性进行了研究。

通过中心核对齐 (CKA, Centered Kernel Alignment) 这一指标发现，P-T 的两个实例在不同层之间非常相似，在 P-T 和 P 之间也是如此。但是 P-T 和 RI-T 实例或两个 RI-T 实例之间，相似性非常低。

谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

表 2 。图片出处：arXiv

也就是说，基于预训练的模型之间的特征相似度很高，而 RI-T 与其他模型相似度很低，哪怕是两个相同初始化的 RI-T。这显然在说明预训练模型之间往往是在重复利用相同的特征，也就强调了特征复用的作用。表 2 为不同模型的参数的距离，同样能够反映出上述结论。

泛化性能

更好度量泛化性能的常用标准，是研究在最终解决方案附近的损失函数里 basin 程度。

作者用Θ和Θ表示两个不同检查点的所有权重，通过两个权重的线性插值{Θ=（1-λ）Θ+λΘ：λ[0,1]} 评估一系列模型的表现。

由于神经网络的非线性和组成结构，两个性能良好的模型权重的线性组合不一定能定义效果良好的模型，因此通常会沿线性插值路径预期到性能降低。

但是，当两个解属于损失函数的同一 basin 时，线性插值仍保留在 basin 中，此时的结果是，不存在性能障碍。此外，对来自同一 basin 的两个随机解进行插值通常可以产生更接近 basin 中心的解，这可能比端点具有更好的泛化性能。

团队将重点放在凸包（convex hull）和线性插值上，以避免产生琐碎的连通性结果。需要强调的是，要求 basin 上的大多数点的凸组合也都在 basin 上，这种额外的约束使得通过低损耗（非线性）路径连接或不连接多个 basin。

此概念的具体形式化以及将凸集设置为 basin 的三点要求论文中均给出了详细说明，在此便不再赘述。

谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

图 4 中所显示出的插值结果，左为 DomainNet real, 右为 quickdraw。图片出处：arXiv

一方面，两次随机运行的 P-T 解决方案之间没有观察到性能降低，这表明预训练的权重将优化引导到了损失函数的 basin。另一方面，在两个 RI-T 运行的解决方案之间清楚地观察到了障碍。可见预训练模型之间的损失函数是很光滑的，不同于 RI-T。

模块重要度

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

选择短网址的好处是可	解决百度显示移动端快
为了提高网站的安全加	关于网站权重优化难题