AWS数据分析新服务 - 数据湖

发布时间：2020-12-20 06:24:09 所属栏目：优化来源：51cto

导读：数据分析是当前比较热门的技术，通过利用云计算的资源，更加快速对数据进行收集、处理并分析。本文将从实践角度阐述 AWS 数据湖以及数据分析等产品，是如何帮助企业更加智能的利用数据，从而辅助业务决策。一、数据湖的由来很久之前，当时的数据量很少，

选择在 AWS Lake Formation 创建好的数据库作为输出目录。

创建完成之后，运行我们的爬网程序。

爬取完成之后，我们就可以去 AWS Lake Formation 里面去查看数据目录了，可以看到多了两张表。

赋予用户权限

目前数据湖的数据目录我们已经创建好了，现在我们分别赋予用户对数据目录的操作权限，以满足我们开始的要求。

salesuser：可以查看表 sales 的所有列。 customersuser：只可以查询表 customers 的 CUSTOMERNAME, EMAIL 列。

首先为 salesuser 添加权限，找到 Sales 表，选择 Grant 按钮，添加权限。

同样的方式赋予 customersuser 权限。

权限授权好了，那我们可以分别登陆这两个用户进行数据查询验证。

数据查询验证

首先我们登陆 salesuser 用户验证测试，我们可以看到所有的表。

在查询之前，我们需要做一个设定，配置一下结果输出，这也就是之前创建的 script 目录。

然后我们开始查询，结果和我们设定的一样，可以查看所有的列数据。

SELECT * FROM "wzlinux-db"."sales" limit 10;

现在我们登陆另外一个用户查看，只可以看到我们分配的两个列。

同样的进行数据查询，查看一下结果，和开始的设定也一样。

可以看到，所有的测试结果和之前预期的一样，通过整个实验过程，我相信大家对 AWS Lake Formation 如何规范化数据湖有了一定的了解。

这么好的工具，你现在是否也想体验一下呢，目前 AWS Lake Formation 在中国区的北京区域也已经上线，欢迎大家去使用体验 AWS 数据湖的方便之处。

四、经验总结

我个人觉得 AWS 在数据湖方面最好的就是计算存储分离，AWS Glue Data Catalog 维护所有存储/查询系统的元数据，实现计算和存储分开，计算按量付费，节省资源，各种计算模型可以直接从 Amazon S3 中获取数据进行分析，使得计算资源可以动态扩展以响应业务的变化。 Amazon S3 作为数据的存储，成本较 Amazon EBS 有巨大的优势，同时还获得了更高的数据持久性和可靠性。大数据的最终目的是为了机器学习提供能具备生产力的模型。一个公司中大数据部门真正的价值是产出产品价值，并非一个报表部门自己造轮子。数据的统一化方便进行前期特征处理和分析任务。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页

选择短网址的好处是可	解决百度显示移动端快
为了提高网站的安全加	关于网站权重优化难题