AWS数据分析新服务 - 数据湖

发布时间：2020-12-20 06:24:09 所属栏目：优化来源：51cto

导读：数据分析是当前比较热门的技术，通过利用云计算的资源，更加快速对数据进行收集、处理并分析。本文将从实践角度阐述 AWS 数据湖以及数据分析等产品，是如何帮助企业更加智能的利用数据，从而辅助业务决策。一、数据湖的由来很久之前，当时的数据量很少，

如果我们在 AWS 上面一步步配置的话，那会变得非常困难，毕竟 AWS 围绕数据库有如此众多的服务，服务之间的关联和权限配置变得很复杂，这时候就需要一个工具来帮助用户把这些问题都搞定，AWS Lake Formation 可以帮助用户快速地搭建数据湖，并且引入了安全管理机制，真正地帮助用户保护数据湖。

说了这么多，那下面我们使用 AWS Lake Formation 去构建一个数据湖吧。

上图是一个数据湖的架构图，我们将准备两份数据 sales 和 customers，会使用 AWS Glue 来存取数据的元数据，在使用 AWS Lake Formation 赋予用户 salesuser 和 customersuser 使用这两个数据表，最终他们将通过 Amazon Athena 来查询需要的数据。

准备数据和用户

我们准备了两个数据文件，下面把他们各自的字段列举一下：

customers：{CUSTOMERID, CUSTOMERNAME, EMAIL, CITY, COUNTRY, TERRITORY, CONTACTFIRSTNAME, CONTACTLASTNAME} sales：{ORDERNUMBER, QUANTITYORDERED, PRICEEACH, ORDERLINENUMBER, SALES, ORDERDATE, STATUS, QTR_ID, MONTH_ID, YEAR_ID, PRODUCTLINE, MSRP, PRODUCTCODE, DEALSIZE, CUSTOMERID}

同样我们也会创建两个用户，分别是 salesuser 和 customersuser，并赋予相应的权限：

salesuser：可以查看表 sales 的所有列。 customersuser：只可以查询表 customers 的 CUSTOMERNAME, EMAIL 列。

下面开始让我们创建吧。

创建 AWS IAM 用户

创建用户这里有几个注意事项，我们创建的用户是需要可以登录 AWS Console 控制台，用户赋予以下几项权限：

AmazonS3FullAccess, AmazonAthenaFullAccess, CloudWatchLogsReadOnlyAccess, AWSCloudFormationReadOnlyAccess 和 AWSGlueConsoleFullAccess。