亚马逊机器学习服务 Amazon SageMaker 又添九项新功能

发布时间：2020-12-15 19:02:57 所属栏目：动态来源：雷锋网

导读：来源：雷锋网机器学习是人工智能的重要分支，机器学习从诞生之日起发展到今天已经走过了 20 多年的时间。如今，人工智能和机器学习已经成为新一代信息技术的典型代表，一个好的算法模型的产生，离不开机器学习。作为机器学习领域的倡导者和领先企业，AWS

来源：雷锋网

机器学习是人工智能的重要分支，机器学习从诞生之日起发展到今天已经走过了 20 多年的时间。如今，人工智能和机器学习已经成为新一代信息技术的典型代表，一个好的算法模型的产生，离不开机器学习。

作为机器学习领域的倡导者和领先企业，AWS 曾于 2017 年 11 月推出 Amazon SageMaker 机器学习平台服务。据了解，Amazon SageMaker 是一项完全托管的服务，可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作，让开发高质量模型变得更加轻松。

它推出短短三年时间，已经成为机器学习领域最受欢迎的服务之一，使用客户达上万家，包括 3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、达美乐比萨、富达投资、GE 医疗、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、联想、Lyft、国家橄榄球联盟、Nerdwallet、T-Mobile、汤森路透、Vanguard 等等。尽管如此，AWS 仍会每年新增一些新的功能和工具，不断延展服务的宽度和深度。

在 Gartner 发布的 2020 年云上 AI 开发者服务魔力象限中，AWS 被评为领导者， Amazon SageMaker 是其中不可或缺的一部分。

在 12 月 9 日的 re:Invent 大会上，AWS 人工智能副总裁 Swami Sivasubramanian 发表了机器学习主题演讲，并宣布 AWS 为其机器学习服务 Amazon SageMaker 推出九项新的功能。

这九项新功能可以使开发人员更容易自动化、规模化的构建端到端的机器学习工作流。

亚马逊机器学习服务 Amazon SageMaker 又添九项新功能

以下是 Swami 的演讲内容和新功能介绍，雷锋网进行了不改变原意的整理：

今天的发布汇集了多项强大的新功能，包括更易用的数据预处理、专用的特征存储、自动化工作流、更多的训练数据可见性以减少数据倾斜和更好的预测解释、大型模型的分布式训练速度可最多提升两倍，以及监控边缘设备上的模型。

机器学习日益成为主流，但它仍在快速发展。随着机器学习受到广泛关注，机器学习模型的创建似乎应该很简单，但事实并非如此。为了创建一个模型，开发人员需要先准备数据，而数据准备是重度依赖人工手动工作的。然后，他们将数据可视化以进行数据探索，选择合适的算法和框架，训练模型，调整和优化模型训练参数，部署模型，并监控其性能。这个过程需要不断重复，才能确保模型在一段时间内的表现符合预期。

在过去，只有最熟练的开发人员才能开展机器学习相关的工作。然而，Amazon SageMaker 的出现，改变了这一现状。

AWS 在过去一年已经交付了 50 多项 Amazon SageMaker 的新功能。在此基础上，今天的发布使得开发人员和数据科学家更容易准备、构建、训练、部署和管理机器学习模型。

Amazon SageMaker Data Wrangler 为机器学习数据准备提供了快速、简便的工具

机器学习的数据准备是一个复杂的过程。这种复杂在于：用于训练机器学习模型的数据字段（也称为特征）通常来自不同的来源，并且格式多样。这意味着开发人员必须花费相当多的时间提取和规范这些数据。客户也可能希望将特征组合成复合特征，以向机器学习模型提供更多有用的输入。

例如，客户可能希望创建一个复合特征来描述一组经常消费的客户，结合以前购买的项目、消费金额和购买频率等特征，为他们提供会员奖励。将数据转化为特征的工作称为特征工程，在构建机器学习模型流程中要消耗开发人员大量的时间。Amazon SageMaker Data Wrangler 从根本上简化了数据准备和特征工程的工作。通过 Amazon SageMaker Data Wrangler，客户可以从各种数据存储中选择他们想要的数据，并一键导入。

Amazon SageMaker Data Wrangler 包含超过 300 个内置的数据转换器，可以帮助客户在无需编写任何代码的情况下，对特征进行规范化、转换和组合。客户可以通过在 Amazon SageMaker Studio（首个用于机器学习的端到端集成开发环境）中查看这些转换，快速预览和检查这些转换是否符合预期。特征设计出来之后，Amazon SageMaker Data Wrangler 会把它们保存在 Amazon SageMaker Feature Store 中，以供重复使用。

Amazon SageMaker Feature Store 存储和管理机器学习特征

Amazon SageMaker Feature Store 提供了一个新的存储库，可以轻松地存储、更新、检索和共享用于训练和推理的机器学习特征。当前，客户可以将他们的特征保存到 Amazon Simple Storage Service（Amazon S3）。如果只是简简单单把一组特征用于一个模型，这种做法是可行的。但实际情况是，大多数特征并不是只用于一个模型，而是被多个开发人员和数据科学家重复用于多个模型中。当创建了新的特征时，开发人员也希望能够重复使用这些特征。这样就导致需要管理多个 Amazon S3 对象，并将变得越来越难以管理。

开发人员和数据科学家试图使用电子表格、笔记和电子邮件来解决这个问题。他们甚至要尝试开发一个应用程序来跟踪管理特征，但这个工作量很大，而且容易出错。此外，开发人员和数据科学家不仅需要使用这些相同的特征和所有可用的数据来训练多个模型，这个过程可能耗时长达几个小时，而且还需要在推理时使用这些特征，这需要在几毫秒内返回预测结果，并且往往只使用相关特征的一个子集。例如，开发人员可能希望创建一个预测播放列表中下一首最佳歌曲的模型。要做到这一点，开发人员要在数千首歌曲上训练模型，然后在推理过程中向模型提供最后播放的三首歌曲，以预测下一首歌曲。训练和推理是非常不同的使用场景。

在训练过程中，模型可以离线、批量地访问特征，对于推理，模型需要实时的访问特征子集。由于机器学习模型使用一样的特征源，并且需要保持数据的一致性，然而这两种不同的访问模式，使得开发者不容易保持特征的一致性和更新的及时性。Amazon SageMaker Feature Store 解决了这一问题，它提供了一个专门构建的特征库，供开发人员访问和共享特征，使开发人员和数据科学家团队容易协调特征的命名、组织、查找和共享。Amazon SageMaker Feature Store 集成在 Amazon SageMaker Studio 中，它可以为推理提供单毫秒级的低延迟访问。Amazon SageMaker Feature Store 使得开发人员可以简单方便地组织和更新用于训练的大批量特征，以及用于推理的小批量特征子集。这样，就为机器学习模型提供了一致的特征视图，降低生成模型的难度，并提供高精度的预测。

Amazon SageMaker Pipelines 实现工作流管理和自动化

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力