加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

AWS数据分析新服务 - 数据湖

发布时间:2020-12-20 06:24:09 所属栏目:优化 来源:51cto
导读:数据分析是当前比较热门的技术,通过利用云计算的资源,更加快速对数据进行收集、处理并分析。本文将从实践角度阐述 AWS 数据湖以及数据分析等产品,是如何帮助企业更加智能的利用数据,从而辅助业务决策。 一、数据湖的由来 很久之前,当时的数据量很少,

AWS Snowball:提取离线传感器数据、NAS、本地 Hadoop。 Amazon Kinesis Data Firehose:提取 IoT、传感器数据、点击流数据、社交媒体源、流式处理日志。 AWS Direct Connect:提取本地数据湖、EDW、大型数据集合。 Amazon Database Migration:提取 Oracle、MySQL、MongoDB、DB2、SQL Server、Amazon RDS。 AWS Storage Gateway:提取本地 ERP、大型主机、实验室设备、NAS 存储。

这些服务可以把各式各样的数据从外部导入到 Amazon S3 中,具体每个服务的详细功能,AWS 都做了详细的介绍,用户可以参考官方文档进行配置。

数据存储

数据湖的存储主要是依托于 Amazon S3,Amazon S3 可以理解为数据湖最重要的一部分,这主要也依托于其强大的特性:

提供 11 个 9 的数据持久性。 业界领先的性能和可扩展性。 完善的安全性、满足法律法规要求。 对象粒度级别的权限控制。 适合各类工作负载的存储类。 方便与其他分析服务整合,如 Amazon Athena、Amazon Redshift 和 Amazon EMR。

AWS 的众多服务都可以和 Amazon S3 无缝结合,为数据湖的数据注入与摄取提供了强大的支持。

数据处理

数据处理这一部分主要是利用 AWS Glue 来进行处理,AWS Glue 是 ETL 和数据目录服务,它是无服务器架构,仅为作业实际使用的资源付费,方便易用,威力强大,支持自动 schema 发现,具有可视化 ETL 和代码生成和灵活的任务调度程序,是 AWS 大数据处理中非常重要的一个组件。

AWS Glue 主要组件有数据目录、作业编写、作业执行,下面介绍每个组件可以做什么事情:

数据目录 Hive 元存储与增强功能兼容 爬网程序自动提取元数据并创建表 与 Athena、Amazon Redshift Spectrum 集成 作业编写 自动生成 ETL 代码 在开源框架上构建,语言为 Python 和 Spark 以开发人员为中心,包括编辑、调试、共享 作业执行 在无服务器 Spark 平台运行作业 提供灵活时间安排 处理依赖关系解析、监控和警报 任务触发方式支持手动触发、定时触发、事件触发,可以和 AWS Lambda 集成

总之,借助 AWS Glue,我们无需再去考虑数据源是什么格式,是结构化还是非结构化,AWS Glue 可以自动智能地进行分析,推断出数据架构,数据类型等等。应对底层数据架构不断发生的变化,如果没有 AWS Glue,在数据源结构发生变化时,用户需要重新去创建数据目录,而这些繁琐的事情现在用户不需要再去关心,AWS Glue 可以统统搞定,数据分析人员可以把更多的注意力放在业务实现方面。

AWS Glue 也具备机器学习的能力,可以帮助用户识别不同的数据集中重复的记录,帮助用户进行数据清理和转换,这个功能不需要用户写一行代码,也不需要具备专业机器学习的算法的能力,只需点击几下鼠标即可实现。

数据分析

在企业里面,一般分析作业都是 BI 报表类型,业务部门把想看的指标告诉数据分析人员,数据分析人员编写 SQL 语句,然后运行结果提供给业务部门查看,但是由于需求的多变和不明确性,这样的过程会反反复复。

这是企业中一个非常典型的场景,但是在实际的使用过程中,客户可能还会需要更加复杂的一些分析手段,比如客户想要通过机器查询、通过 K/V 可以快速地在海量数据中查询需要的结果、想要实现全文检索,或者流式快速对数据进行统计等。

面对以上的问题,我们都可以通过 AWS 提供的服务进行实现。通过 Amazon Redshift 实现交互式查询分析,使用 Amazon EMR 对海量数据进行 ETL 处理和分析,使用 Amazon ElasticSearch 实现全文检索,Amazon Kinesis 实现流式快速数据统计等,借助于 Amazon Athena 可以直接对 Amazon S3 的数据进行 SQL 查询,当下比较流行的机器学习方面也可也借助 Amazon SageMaker 来实现,Amazon SageMaker 可以读取 Amazon S3 中的训练数据,并将训练好的模型回写到 Amazon S3 中。

我们可以看到,在 AWS 数据湖上,这些分析都是通过不同的外部工具来实现,计算由外部的组件实现,存储统一由 Amazon S3 提供,这也是 AWS 数据湖的独特之处,计算与存储分离。

数据展示

数据的采集和生产最终是为了决策,数据的各种分析要求基本已经满足了企业大部分的需求,那这些分析结果如何以可视化的效果展现从而帮助用户决策呢?

在数据展示方面,AWS 也为用户提供了一款采用云技术的快速商业智能服务 Amazon QuickSight,企业用户可以更加便捷、快速低成本地分析数据。

Amazon QuickSight 的定位是连接用户与数据,它是整个 AWS 生态中离商业决策最近的服务,直接解决大数据应用的 “最后一公里” 问题。它不需要用户有代码能力,可自动识别和整合各种不同的数据源,包括与 Amazon RedShift、Amazon S3、Amazon Athena、Amazon Aurora、Amazon RDS、AWS IAM、AWS CloudTrail、Amazon Cloud Directory 等 AWS 服务的原生集成。提供实时交互式的数据查询方式,并且自动进行数据可视化,最大程度降低了商业决策端用户使用大数据的成本。

权限管理

在企业数字化转型的过程中,势必会有很多数据分散在各个地方,这些数据如何统一管理?AWS 给出的答案是需要一个统一的数据目录用来注册和管理数据的元数据信息。在 AWS 搭建一个这样的数据目录并不难,使用 AWS Glue Catalog 可以很方便实现。

但是对于一个集中的数据目录,如何管理权限边界变成了一个问题,AWS 是如何管理权限边界的呢?

AWS Glue Catalog 是通过 AWS IAM 对元数据进行精细化控制的,它可以在整个数据目录级别、数据库级别、表级别对不同的 AWS IAM 用户进行授权,非常灵活方便。这些权限管理可以通过 AWS Lake Formation 来实现,AWS Lake Formation 的权限进一步可以细分为数据资源目录访问权限和底层数据访问权限,分别对应元数据和实际存储的数据。实际存储数据的访问权限又进一步分为数据存取权限和数据存储访问权限。

综上,AWS 数据湖方案成熟度高,特别是元数据管理、权限管理上考虑充分,打通了异构数据源与各类计算引擎的上下游关系,让数据能够自由 “移动” 。在流计算和机器学习上,AWS 的解决方案也比较完善。在流计算方面,AWS 推出了专门的流计算组件 Amazon Kinesis,同时 Amazon Kinesis 还可以访问 AWS Glue 中的元数据,这一点也充分体现了 AWS 数据湖解决方案在生态上的完备性。

三、在 AWS 上构建数据湖

至此,围绕着数据湖 AWS 提供整个一套大数据解决方案,那么在每个阶段中,不同的数据类型和不同的分析需求应该如何满足,应如何调度和管理一个数据分析的应用呢?

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!