加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

谷歌:引领ML发展的迁移学习,究竟在迁移什么?丨NeurIPS 2020

发布时间:2020-12-25 19:37:26 所属栏目:优化 来源:51cto
导读:在机器学习领域大热的分类学习任务中,为了保证训练得到的分类模型具有准确性和高可靠性,一般会作出两个基本假设: 用于学习的训练样本与新的测试样本满足独立同分布; 必须有足够可用的训练样本才能学习得到一个好的分类模型。 但实际情况很难满足这两个

在机器学习领域大热的分类学习任务中,为了保证训练得到的分类模型具有准确性和高可靠性,一般会作出两个基本假设:

用于学习的训练样本与新的测试样本满足独立同分布;

必须有足够可用的训练样本才能学习得到一个好的分类模型。

但实际情况很难满足这两个条件。

 

很多 ML 技术只有在训练数据和测试数据处于相同的特征空间中或具有相同分布的假设下才能很好地发挥作用,一旦随着时间推移,标签可用性变差或标注样本数据缺乏,效果便不尽如人意。

因此,这就引起 ML 中另一个需要关注的重要问题,如何利用源领域(Source domian)中少量的可用标签训练样本 / 数据训练出鲁棒性好的模型,对具有不同数据分布的无标签 / 少可用标签的目标领域(Target domain)进行预测。

由此,迁移学习(Transfer Learning)应运而生,并引起了广泛的关注和研究。

近几年来,已经有越来越多的研究者投入到迁移学习中。每年机器学习和数据挖掘的顶级会议中都有关于迁移学习的文章发表。

顾名思义,迁移学习就是把一个领域已训练好的模型参数迁移到另一个领域,使得目标领域能够取得更好的学习效果。鉴于大部分的数据具有存在相关性,迁移学习可以比较轻松地将模型已学到的知识分享给新模型,从而避免了从头学习,这加快效率,也大大提高样本不充足任务的分类识别结果。

今年的 NeurIPS 上,谷歌的一支研究团队发表了一篇名为 What is being transferred in transfer learning? 的论文,揭示了关于迁移学习的最新研究进展。

谷歌:引领ML发展的迁移学习,究竟在迁移什么?丨NeurIPS 2020

在这篇论文中,作者便向我们提供了新的工具和分析方法,从不同的角度剖析了不同模块的作用及影响成功迁移的因素,得到了一些有趣的结论,例如,相比高层的特征,预训练模型适合迁移的主要是低层的统计信息。

具体而言,通过对迁移到块混洗图像(block-shuffled images)的一系列分析,他们从学习低层数据统计中分离出了特征复用(feature reuse)的效果,并表明当从预训练权重进行初始化训练时,该模型位于损失函数 “地图” 的同一 “盆地”(basin)中,不同实例在特征空间中相似,并且在参数空间中接近(注:basin 一词在该领域文献中经常使用,指代参数空间中损失函数相对较低值的区域)。

迁移学习应用现状

前百度首席科学家吴恩达(Andrew Ng)曾经说过:迁移学习将会是继监督学习之后,下一个机器学习商业成功的驱动力。

在 2016 年的 NIPS 会议上,吴恩达曾给出了一个未来 AI 方向的技术发展判断:毋庸置疑,目前成熟度最高、成功商用的是监督学习,紧随其后,下一个近 5 年内最可能走向商用的 AI 技术将会是迁移学习。

DeepMind 首席执行官 Demis Hassabis 也曾表示,迁移学习也是最有前途的技术之一,有朝一日可能会触发通用人工智能的诞生(AGI)。在当下深度学习的发展大潮中看来,迁移学习确实如此。

如今距离这两位 AI 学者的 “预测” 已经过去了近 5 年。那么,目前迁移学习应用正呈现怎样的局面?

在计算机视觉领域,迁移学习已经有了很多成功的应用,甚至在一些任务中,机器能以超越人类精确度的水平完成某项任务。

而在 NLP 领域,迁移学习也是一系列研究突破中的关键组成部分,尤其在跨域情感分析上展现了其潜力。

谷歌:引领ML发展的迁移学习,究竟在迁移什么?丨NeurIPS 2020

与此同时,迁移学习所存在的问题也随之暴露。研究人员发现,某些案例中,源域和目标域之间在视觉形式上仍存在不小的差异。对于研究人员而言,已经很难理解什么能够成功进行迁移,以及网络的哪些部分对此负责。在这篇论文中,研究团队专注于研究视觉领域的迁移学习。

文中涉及的两大数据集分别是:

CheXpert 数据集,这是在 2019 年 AAAI 上,吴恩达的斯坦福团队发布的大型 X 射线数据集,此数据集考虑到了不同疾病的胸部 X 射线医学影像,它包含 65,240 位病人的 224,316 张标注好的胸部 X 光片以及放射科医师为每张胸片写的病理报告;

DomainNet 数据集,该数据集发布在 2019 年 ICCV 上,此论文作者收集并注释了迄今为止最大的 UDA 数据集,专门用于探究不同领域中的迁移学习。其中存在显著的领域差异和大量的类别划分,包含 6 个域和分布在 345 个类别中的近 60 万幅图像,范围从真实图像到草图,剪贴画和绘画样本,解决了多源 UDA 研究在数据可用性方面的差距。

4 种网络的迁移学习

他们分析了四种不同情况下的网络:

1. 预训练网络(P, pre-trained model);

2. 随机初始化的网络(RI, random initialization);

3. 在源域上进行预训练后在目标域上进行微调的网络(P-T, model trained/fine-tuned on target domain starting from pre-trained weights);

4. 随机初始化对目标域进行普通训练的模型(RI-T, model trained on target domain from random initialization)。

首先,团队通过改组数据研究了特征复用。将下游任务的图像划分为相同大小的块并随机排序,数据中的块混洗破坏了图像的视觉特征。该分析表明了特征复用的重要性,并证明了不受像素混洗干扰的低级统计数据在成功传输中也起作用。

然后,需要比较经过训练的模型的详细行为。为此,他们调查了从预训练和从零开始训练的模型两者间的异同。实验证明,与通过随机初始化训练的模型相比,使用预训练的权重训练的模型的两个实例在特征空间上更为相似。

再就是调查了预训练权重和随机初始化权重训练的模型的损失情况,并观察到从预训练权重训练的两个模型实例之间没有性能降低,这表明预训练权重能够将优化引导到损失函数的 basin。

接下来,我们结合文章中的实验和结果来详细的分析方法论并探讨 “What is being transferred?”。

什么被迁移了?

人类视觉系统的组成具有层次化的特征,视觉皮层中的神经元对边缘等低级特征做出响应,而上层的神经元对复杂的语义输入进行响应。一般认为,迁移学习的优势来自重用预先训练的特征层。如果下游任务因为太小或不够多样化而无法学习良好的特征表示时,这会变得特别有用。

因此,很容易理解,大家认为迁移学习有用的直觉思维就是,迁移学习通过特征复用来给样本少的数据提供一个较好的特征先验。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!