谷歌:引领ML发展的迁移学习,究竟在迁移什么?丨NeurIPS 2020
然而,这种直觉却无法解释为什么在迁移学习的许多成功应用中,目标领域和源领域在视觉上差异很大的问题。 图 1 。图片出处:arXiv 为了更清楚地描述特征复用的作用,作者使用了图 1 中包含自然图像(ImageNet)的源域(预训练)和一些与自然图像的视觉相似度低的目标域(下游任务)。 图 2 可以看到,real domain 具有最大的性能提升,因为该域包含与 ImageNet 共享相似视觉特征的自然图像。这能够支撑团队成员的假设 —— 特征复用在迁移学习中起着重要作用。另一方面,在数据差别特别大的时候(CheXpert 和 quickdraw),仍然可以观察到迁移学习带来的明显的性能提升。 除最终性能外,在所有情况下,P-T 的优化收敛速度都比 RI-T 快得多。这也暗示出预训练权重在迁移学习中的优势并非直接来自特征复用。 为了进一步验证该假设,团队修改了下游任务,使其与正常视觉域的距离进一步拉大,尤其是将下游任务的图像划分为相等大小的块并随机排序。 混洗扰乱了那些图像中的高级视觉功能,模型只能抓住浅层特征,而抽象特征没法很好地被提取。 其中,块大小 224*224 的极端情况意味着不进行混洗;在另一种极端情况下,图像中的所有像素都将被混洗,从而使得在预训练中学到的任何视觉特征完全无用。 在本文中,团队成员创造出了一种特殊情况,每个通道的像素都可以独立的移动,并且可以移动到其他通道中。 图 3 。图片出处:arXiv 图 3 显示了不同块大小对最终性能和优化速度的影响。我们可以观察到以下几点: 随着打乱程度的加剧,RI-T 和 P-T 的最终性能都会下降,任务越发困难; 相对精度差异随块尺寸(clipart, real)的减小而减小,说明特征复用很有效果; quickdraw 上情况相反是由于其数据集和预训练的数据集相差过大,但是即便如此,在 quickdraw 上预训练还是有效的,说明存在除了特征复用以外的因素; P-T 的优化速度相对稳定,而 RI-T 的优化速度随着块尺寸的减小时存在急剧的下降。这表明特征复用并不是影响 P-T 训练速度的主要因素。 由上述实验得出结论,特征复用在迁移学习中起着非常重要的作用,尤其是当下游任务与预训练域共享相似的视觉特征时。但是仍存在其他因素,例如低级别的统计信息,可能会带来迁移学习的显着优势,尤其是在优化速度方面。 失误和特征相似性 这部分主要通过探究不同模型有哪些 common mistakes 和 uncommon mistakes 来揭示预训练的作用。 为了理解不同模型之间的差异,作者首先比较两个 P-T,一个 P-T 加一个 RI-T 和两个 RI-T 之间的两类错误率并发现 P-T 和 RI-T 模型之间存在许多 uncommon mistakes,而两个 P-T 的 uncommon mistakes 则要少得多。对于 CheXpert 和 DomainNet 目标域,都是这种情况。 在 DomainNet 上可视化每个模型的两类错误并观察得到,P-T 不正确和 RI-T 正确的数据样本主要包括模棱两可的例子;而 P-T 是正确的数据样本和 RI-T 是不正确的数据样本也包括许多简单样本。 这符合假设,P-T 在简单样本上的成功率很高,而在比较模糊难以判断的样本上比较难 (而此时 RI-T 往往比较好), 说明 P-T 有着很强的先验知识,因此很难适应目标域。 为了加强对上述想法的验证,团队成员又对特征空间中两个网络的相似性进行了研究。 通过中心核对齐 (CKA, Centered Kernel Alignment) 这一指标发现,P-T 的两个实例在不同层之间非常相似,在 P-T 和 P 之间也是如此。但是 P-T 和 RI-T 实例或两个 RI-T 实例之间,相似性非常低。 表 2 。图片出处:arXiv 也就是说,基于预训练的模型之间的特征相似度很高,而 RI-T 与其他模型相似度很低,哪怕是两个相同初始化的 RI-T。这显然在说明预训练模型之间往往是在重复利用相同的特征,也就强调了特征复用的作用。表 2 为不同模型的参数的距离,同样能够反映出上述结论。 泛化性能 更好度量泛化性能的常用标准,是研究在最终解决方案附近的损失函数里 basin 程度。 作者用Θ和Θ表示两个不同检查点的所有权重,通过两个权重的线性插值{Θ=(1-λ)Θ+λΘ:λ[0,1]} 评估一系列模型的表现。 由于神经网络的非线性和组成结构,两个性能良好的模型权重的线性组合不一定能定义效果良好的模型,因此通常会沿线性插值路径预期到性能降低。 但是,当两个解属于损失函数的同一 basin 时,线性插值仍保留在 basin 中,此时的结果是,不存在性能障碍。此外,对来自同一 basin 的两个随机解进行插值通常可以产生更接近 basin 中心的解,这可能比端点具有更好的泛化性能。 团队将重点放在凸包(convex hull)和线性插值上,以避免产生琐碎的连通性结果。需要强调的是,要求 basin 上的大多数点的凸组合也都在 basin 上,这种额外的约束使得通过低损耗(非线性)路径连接或不连接多个 basin。 此概念的具体形式化以及将凸集设置为 basin 的三点要求论文中均给出了详细说明,在此便不再赘述。 图 4 中所显示出的插值结果,左为 DomainNet real, 右为 quickdraw。图片出处:arXiv 一方面,两次随机运行的 P-T 解决方案之间没有观察到性能降低,这表明预训练的权重将优化引导到了损失函数的 basin。另一方面,在两个 RI-T 运行的解决方案之间清楚地观察到了障碍。可见预训练模型之间的损失函数是很光滑的,不同于 RI-T。 模块重要度 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |