谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

发布时间：2020-12-25 19:37:26 所属栏目：优化来源：51cto

导读：在机器学习领域大热的分类学习任务中，为了保证训练得到的分类模型具有准确性和高可靠性，一般会作出两个基本假设：用于学习的训练样本与新的测试样本满足独立同分布；必须有足够可用的训练样本才能学习得到一个好的分类模型。但实际情况很难满足这两个

如果我们将训练好的模型的某一层参数替换为其初始参数，然后观察替换前后的正确率就能一定程度上判断这个层在整个网络中的重要性，那么，模块重要度就是一个这样的类似的指标。

图5。图片出处：arXiv

图 5 反映了不同模块不同层的重要度。在监督学习案例中也有类似的模式。唯一的区别可能是，“FC” 层对于 P-T 模型的重要性是可预料的。

接下来，作者使用扩展定义以及原始定义来研究不同模块的重要度。很容易可以注意到，优化和直接路径都为模块的重要度提供了有趣的见解。或许，与最终值相比，权重的最佳值是进行此分析的更好的起点选择。

而图 6 显示了对 “ Conv1” 模块的分析，正如图 5 所示，这是一个关键模块。

谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

图6。图片出处：arXiv

谷歌：引领ML发展的迁移学习，究竟在迁移什么？丨NeurIPS 2020

图7。图片出处：arXiv

通过初始化来自预训练优化路径上不同检查点的预训练权重，比较迁移学习的好处。图 7 显示了从不同的预训练检查点进行微调时的最终性能和优化速度。

总体而言，预训练的好处随着检查点指数的增加而增加，可得出以下结论：

在预训练中，在学习率下降的 epoch 30 和 epoch 60 观察到了很大的性能提升。但是，从检查点 29、30、31（和类似的 59、60、61）初始化不会显示出明显不同的影响。另一方面，特别是对于 real 和 clipart 的最终性能，当从训练前性能一直处于平稳状态的检查点（如检查点 29 和 59）开始时，可以观察到显着的改进。这表明，预训练性能并不总是作为预训练权重对迁移学习有效性的忠实指标。

quickdraw 在预训练中发现最终性能的收益要小得多，并在检查点 10 迅速达到平稳状态，而 real 和 clipart 直到检查点 60 都不断看到的性能的显著改进。另一方面，随着检查点索引的增加，所有三个任务在优化速度改进上均具有明显的优势。

优化速度在检查点 10 处开始达到平稳状态，而对于 real 和 clipart，最终结果则不断提升。在训练前的早期检查点是在收敛模型的 basin 之外，在训练期间的某个点便进入 basin。这也解释了在一些检查点之后性能停滞不前的原因。

因此，我们可以早一步地选取检查点，这样便不会损失微调模型的准确性。这种现象的起点取决于预训练模型何时进入其最终 basin。

总而言之，这项研究明确阐述了迁移学习中所迁移的内容以及网络的哪些部分正在发挥作用。

对于成功的迁移，数据的特征复用和底层统计都非常重要。通过对输入块进行混洗来研究特征重用的作用，表明当从预训练权重初始化进行训练时，网络停留在解决方案的同一 basin 中，特征相似并且模型在参数空间中的距离附近。

作者还进一步确认了，较低的层负责更一般的功能，较高层的模块对参数的扰动更敏感。通过对损失函数 basin 的发现可用于改进集成方法，对低级数据统计数据的观察提高了训练速度，这可能会导致更好的网络初始化方法。利用这些发现来改善迁移学习，将十分具有价值。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

选择短网址的好处是可	解决百度显示移动端快
为了提高网站的安全加	关于网站权重优化难题