加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

AWS数据分析新服务 - 数据湖

发布时间:2020-12-20 06:24:09 所属栏目:优化 来源:51cto
导读:数据分析是当前比较热门的技术,通过利用云计算的资源,更加快速对数据进行收集、处理并分析。本文将从实践角度阐述 AWS 数据湖以及数据分析等产品,是如何帮助企业更加智能的利用数据,从而辅助业务决策。 一、数据湖的由来 很久之前,当时的数据量很少,

选择在 AWS Lake Formation 创建好的数据库作为输出目录。

image-20201105134711738

创建完成之后,运行我们的爬网程序。

image-20201105134804120

爬取完成之后,我们就可以去 AWS Lake Formation 里面去查看数据目录了,可以看到多了两张表。

image-20201105135020454

赋予用户权限

目前数据湖的数据目录我们已经创建好了,现在我们分别赋予用户对数据目录的操作权限,以满足我们开始的要求。

salesuser:可以查看表 sales 的所有列。 customersuser:只可以查询表 customers 的 CUSTOMERNAME, EMAIL 列。

首先为 salesuser 添加权限,找到 Sales 表,选择 Grant 按钮,添加权限。

image-20201105135542190

同样的方式赋予 customersuser 权限。

image-20201105135713581

权限授权好了,那我们可以分别登陆这两个用户进行数据查询验证。

数据查询验证

首先我们登陆 salesuser 用户验证测试,我们可以看到所有的表。

image-20201105140527651

在查询之前,我们需要做一个设定,配置一下结果输出,这也就是之前创建的 script 目录。

image-20201105140647168

然后我们开始查询,结果和我们设定的一样,可以查看所有的列数据。

SELECT * FROM "wzlinux-db"."sales" limit 10;

image-20201105140751366

现在我们登陆另外一个用户查看,只可以看到我们分配的两个列。

image-20201105141023687

同样的进行数据查询,查看一下结果,和开始的设定也一样。

image-20201105141123626

可以看到,所有的测试结果和之前预期的一样,通过整个实验过程,我相信大家对 AWS Lake Formation 如何规范化数据湖有了一定的了解。

这么好的工具,你现在是否也想体验一下呢,目前 AWS Lake Formation 在中国区的北京区域也已经上线,欢迎大家去使用体验 AWS 数据湖的方便之处。

四、经验总结

我个人觉得 AWS 在数据湖方面最好的就是计算存储分离,AWS Glue Data Catalog 维护所有存储/查询系统的元数据,实现计算和存储分开,计算按量付费,节省资源,各种计算模型可以直接从 Amazon S3 中获取数据进行分析,使得计算资源可以动态扩展以响应业务的变化。 Amazon S3 作为数据的存储,成本较 Amazon EBS 有巨大的优势,同时还获得了更高的数据持久性和可靠性。 大数据的最终目的是为了机器学习提供能具备生产力的模型。 一个公司中大数据部门真正的价值是产出产品价值,并非一个报表部门自己造轮子。 数据的统一化方便进行前期特征处理和分析任务。  

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!