亚马逊云服务(AWS) 为机器学习扩圈 触及每一位AI工作者
Amazon Athena是数据分析师经常用到的服务。通过这项服务,可以直接从Amazon S3上的对象文件中,利用SQL语句进行数据查询(SQL是结构化查询语言,原本用于关系型数据查询,而S3的对象文件不是关系型数据)。AWS也推出了新功能Amazon Athena ML,查询返回的结果也可以自动附带机器学习推理的结果。 Amazon Redshift是云原生的数据仓库。AWS推出的新功能Amazon Redshift ML,甚至把选择模型这一步省了。举一个例子,电商领域经常会哪些客户有可能流失,这时你可能并没有一个模型来判断什么样特征的客户有可能会流失。通过Redshift ML,数据分析师只管SQL查询,Redshift ML可以把数据导入S3,然后SageMaker的Autopilot功能结合。Autopilot是一个自动建模的功能。这样的Redshift ML可以自动进行数据清洗、模型训练,选择最优的模型进行预测。 Amazon Neptune是AWS的一个图数据库,主要用于知识图谱、身份图谱、欺诈检测、推荐引擎、社交关系、生命科学等场景,用图的方式表示各个数据实体之间的关系,例如,好友关系图。对图数据库,只是表示出数据的相关性显然不够,用户更需要的是,根据这些相关性进行机器学习推理。新功能Neptune ML,就是将图数据库和机器学习打通,通过机器学习模型去访图数据库,进行更精准的预测。 Amazon QuickSight是AWS的一个商业智能(BI)服务,可以轻松地调用各种数据进行分析和展现。AWS于2020年5月推出了QuickSight ML新功能,它也跟SageMaker的Autopilot功能进行了结合,数据分析人员可以用它开展欺诈检测、销售预测等工作。 在今年的re:Invent大会上,AWS推出了更酷的机器学习新功能QuickSight Q。通过它,可以用自然语言对数据进行提问,获得想要的数据洞察。例如,直接在查询框中输入“我们的同比增长率是多少?”几秒钟之内就可以得到高度准确的答案。如果按以往的方式,需要在模型中预先定义增长率、更新模型、处理数据,可能需要几天甚至几周时间。 AWS还推出了Amazon Lookout For Metrics,它利用机器学习技术,通过企业多种数据的比对,检测出数据异常。顾凡举例说,一件商品的售价200元,在某个数据源变成了20元。通过Amazon Lookout For Metrics找出这种异常数据,意义重大。如果是在线销售中出现这样的价格错误,有可能给企业带来巨大的损失。 此外,AWS还发布了利用机器学习的运维服务Amazon DevOps Guru,它可以帮助应用开发人员自动检测运维操作的问题,给出建议补救措施,提高应用程序可用性。此前,AWS已经推出了Amazon CodeGuru,可以让开发人员使用机器学习自动进行代码审核,并且提供指导和建议。 Amazon SageMaker再添九项新功能,快上加快,简单再简单 扩圈举措之四,大力发展机器学习的中间力量。如前所述,Amazon SageMaker是面向机器学习开发者的一个集成开发环境,是一项全托管的服务。它消除了机器学习过程中每个阶段的挑战,化繁为简,使开发人员和数据科学家能够从根本上更轻松、更快速地构建、训练和部署机器学习模型。Amazon SageMaker的功能也在快速迭代中,过去一年就交付了50多项新功能。在今年的re:Invent大会上,AWS再次发布9项新功能。 (1) Data Wranger,数据特征提取器。Amazon SageMaker Data Wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过Data Wrangler,客户可以将各种数据存储中的数据一键导入。Data Wrangler内置了300多个数据转换器,让客户无需编写任何代码,就可以机器学习用到的特征进行规范化、转换和组合。客户可以通过在SageMaker Studio(首个用于机器学习的端到端集成开发环境)中查看这些转换,快速预览和检查这些转换是否符合预期。 (2) Feature Store,数据特征存储库。鉴于有大量的特征需要管理,AWS为Amazon SageMaker推出了一项新功能,名为Feature Store。它一个用于更新、检索和共享机器学习特征的专用库。通过Data Wrangler把特征设计出来以后,可以保存在Feature Store 中,以供重复使用。一组特征会用于不同的模型,被多个开发人员和数据科学家使用,需要有效地跟踪、管理这些特征,及时更新,保持一致性。模型训练和利用模型进行推理(也就是实际运用模型),对特征的使用场景也不同。在训练过程中,模型可以离线、批量地访问特征,使用时间长。而对于推理,通常只用到特征库的一部分,不过需要实时访问,几毫秒内返回预测结果。因此,如何特征库的管理是一件复杂的事儿,Feature Store就用于解决这些问题。 (3) Pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。Amazon SageMaker Pipelines是第一个专为机器学习构建的、方便易用的CI/CD(持续集成和持续交付)服务。 (4) Clarify,模型偏差检测。通过Amazon SageMaker Clarify,开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |