加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

亚马逊机器学习服务 Amazon SageMaker 又添九项新功能

发布时间:2020-12-15 19:02:57 所属栏目:动态 来源:雷锋网
导读:来源:雷锋网 机器学习是人工智能的重要分支,机器学习从诞生之日起发展到今天已经走过了 20 多年的时间。如今,人工智能和机器学习已经成为新一代信息技术的典型代表,一个好的算法模型的产生,离不开机器学习。 作为机器学习领域的倡导者和领先企业,AWS

Amazon SageMaker Pipelines 是第一个专门为机器学习构建的、易于使用的 CI/CD(持续集成和持续交付)服务。客户在特征工程中可以发现,机器学习包含的多个步骤都可以受益于编排和自动化。这与传统的编程并无二致。在传统编程中,客户有 CI/CD 等工具帮助他们更快地开发和部署应用程序。然而,目前的机器学习中很少使用 CI/CD 工具,因为要么没有这样的工具,要么难以设置、配置和管理。

借助 Amazon SageMaker Pipelines,开发人员可以定义端到端机器学习工作流的每一步。这些工作流包括数据加载步骤、用 Amazon SageMaker Data Wrangler 做转换、在 Amazon SageMaker Feature Store 保存特征、训练配置及算法设置、调试步骤,以及优化步骤。通过 Amazon SageMaker Pipelines,开发人员可以轻松地从 Amazon SageMaker Studio 使用相同的设置重复运行端到端工作流,,每次都能获得完全相同的模型,或者,他们可以定期使用新数据重新运行工作流,更新模型。每次运行工作流时,Amazon SageMaker Pipelines 都会记录 Amazon SageMaker Experiments(Amazon SageMaker 的一项功能,用于组织和跟踪机器学习实验和模型版本)中的每个步骤。这有助于开发人员可视化并进行机器学习模型的迭代、训练参数和结果比较。

借助 Amazon SageMaker Pipelines,工作流可以在团队之间共享和重复使用,既可以重新创建模型,也可以作为一个通过新的特征、算法或优化改进模型的起点。

使用 Amazon SageMaker Clarify 进行偏差检测和模型解释

Amazon SageMaker Clarify 在整个机器学习工作流中提供偏差检测,使开发人员能够在其模型中实现更大的公平性和更高的透明度。一旦开发人员为训练和推理准备了数据,就需要尽量确保数据没有统计偏差,并且模型预测是透明的,以便可以解释模型特征是如何预测的。

如今,开发人员有时会尝试使用开源工具检测数据中的统计偏差,但这些工具需要大量的人工编程的工作,而且经常容易出错。借助 Amazon SageMaker Clarify,开发人员现在可以更轻松地检测整个机器学习工作流中的统计偏差,并为其机器学习模型所做的预测提供解释。Amazon SageMaker Clarify 已集成到 Amazon SageMaker Data Wrangler,它运行了一系列基于特征数据的算法,用以识别数据准备过程中的偏差,并且清晰描述可能的偏差来源及其严重程度。这样,开发人员就可以采取措施来减小偏差。

Amazon SageMaker Clarify 还与 Amazon SageMaker Experiments 集成,使开发人员更容易地检查训练好的模型是否存在统计偏差。它还详细说明了输入到模型中的每个特征是如何影响预测的。最后,Amazon SageMaker Clarify 与 Amazon SageMaker Model Monitor(Amazon SageMaker 的一项功能,可持续监控正式使用中的机器学习模型的质量)集成,一旦模型特征的重要性发生偏移,导致模型预测质量发生改变,它就会提醒开发人员。

用 Deep Profiling forAmazon SageMaker Debugger 做模型训练剖析

Deep Profiling for Amazon SageMaker Debugger 能够自动监控系统资源利用率,为训练瓶颈提供告警,以方便开发者更快地训练模型。当前,开发人员没有一个标准的监控系统利用率的方法(例如 GPU、CPU、网络吞吐量和内存 I/O)以识别和排除训练作业中的瓶颈。因此,开发人员无法以最快的速度、最高的成本效益来训练模型。

Amazon SageMaker Debugger 通过最新的 Deep Profiling 功能解决了这一问题,该功能为开发人员提供了在 Amazon SageMaker Studio 中可视化剖析和监控系统资源利用率的能力。这让开发人员更容易寻根问底,减少训练机器学习模型的时间和成本。借助这些新功能,Amazon SageMaker Debugger 扩大了监控系统资源利用率的范围,在 Amazon SageMaker Studio 中或通过 AWS CloudWatch 发送训练期间的问题告警,将使用情况关联到训练作业中的不同阶段,或者训练期间的特定时间点(如训练作业开始后第 28 分钟)。

Amazon SageMaker Debugger 还可以根据告警触发行动(例如,当检测到 GPU 使用情况不正常时,即停止训练作业)。Amazon SageMaker Debugger Deep Profiling 可以用于 PyTorch、Apache MXNet 和 TensorFlow 的训练任务,自动收集必要的系统和训练指标,无需在训练脚本中更改任何代码。这允许开发人员在 Amazon SageMaker Studio 中可视化其训练期间的系统资源使用情况。

用 Distributed Training on Amazon SageMaker 缩短训练时间

Distributed Training on Amazon SageMaker 使得训练大型复杂深度学习模型的速度比当前的方法快两倍。当前,高级的机器学习使用场景,例如智能助手的自然语言处理、自动驾驶车辆的对象检测和分类,以及大规模内容审核的图像分类,需要越来越大的数据集和更多的 GPU ( 图形处理单元 ) 内存进行训练。然而,其中一些模型太大,无法容纳在单个 GPU 提供的内存中。客户可以尝试在多个 GPU 间拆分模型,但寻找拆分模型的最佳方式和调整训练代码往往需要数周的繁琐实验。

为了克服这些挑战,Distributed Training on Amazon SageMaker 提供了两种分布式训练功能,使开发人员能够在不增加成本的情况下,将大型模型的训练速度提高两倍。Distributed Training 与 Amazon SageMake 的数据并行引擎一起,通过在多个 GPU 间自动分割数据,将训练作业从一个 GPU 扩展到数百个或数千个 GPU,将训练时间缩短多达 40%。

之所以能够缩短训练时间,是因为 Amazon SageMaker 的数据并行引擎使用了专门的算法来管理 GPU,充分利用 AWS 基础设施,实现最佳同步,具有近乎线性的扩展效率。Distributed Training 与 Amazon SageMaker 模型并行引擎一起,可以自动剖析和识别分割模型的最佳方式,在多个 GPU 上高效分割具有数十亿参数的大型复杂模型。它们通过使用图分区算法来完成这样工作,优化了平衡计算,最大限度地减少 GPU 之间的通信,从而最少化代码重构,减少 GPU 内存限制造成的错误。

使用 Amazon SageMaker Edge Manager 管理边缘设备模型

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!