AWS数据分析新服务 - 数据湖
选择在 AWS Lake Formation 创建好的数据库作为输出目录。 创建完成之后,运行我们的爬网程序。 爬取完成之后,我们就可以去 AWS Lake Formation 里面去查看数据目录了,可以看到多了两张表。 赋予用户权限 目前数据湖的数据目录我们已经创建好了,现在我们分别赋予用户对数据目录的操作权限,以满足我们开始的要求。 salesuser:可以查看表 sales 的所有列。 customersuser:只可以查询表 customers 的 CUSTOMERNAME, EMAIL 列。 首先为 salesuser 添加权限,找到 Sales 表,选择 Grant 按钮,添加权限。 同样的方式赋予 customersuser 权限。 权限授权好了,那我们可以分别登陆这两个用户进行数据查询验证。 数据查询验证 首先我们登陆 salesuser 用户验证测试,我们可以看到所有的表。 在查询之前,我们需要做一个设定,配置一下结果输出,这也就是之前创建的 script 目录。 然后我们开始查询,结果和我们设定的一样,可以查看所有的列数据。 SELECT * FROM "wzlinux-db"."sales" limit 10; 现在我们登陆另外一个用户查看,只可以看到我们分配的两个列。 同样的进行数据查询,查看一下结果,和开始的设定也一样。 可以看到,所有的测试结果和之前预期的一样,通过整个实验过程,我相信大家对 AWS Lake Formation 如何规范化数据湖有了一定的了解。 这么好的工具,你现在是否也想体验一下呢,目前 AWS Lake Formation 在中国区的北京区域也已经上线,欢迎大家去使用体验 AWS 数据湖的方便之处。 四、经验总结 我个人觉得 AWS 在数据湖方面最好的就是计算存储分离,AWS Glue Data Catalog 维护所有存储/查询系统的元数据,实现计算和存储分开,计算按量付费,节省资源,各种计算模型可以直接从 Amazon S3 中获取数据进行分析,使得计算资源可以动态扩展以响应业务的变化。 Amazon S3 作为数据的存储,成本较 Amazon EBS 有巨大的优势,同时还获得了更高的数据持久性和可靠性。 大数据的最终目的是为了机器学习提供能具备生产力的模型。 一个公司中大数据部门真正的价值是产出产品价值,并非一个报表部门自己造轮子。 数据的统一化方便进行前期特征处理和分析任务。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |