40亿条/秒！Flink流批一体在阿里双11首次落地的背后

发布时间：2020-11-24 13:28:40 所属栏目：动态来源：站长网

导读：阿里妹导读:今年的双11,实时计算处理的流量洪峰创纪录地达到了每秒40亿条的记录,数据体量也达到了惊人的每秒7TB,基于Flink的流批一体数据应用开始在阿里巴巴最核心的数据业务场景崭露头角,并在稳定性、性能和效率方面都经受住了严苛的生产考验。本文深度解

阿里妹导读:今年的双11,实时计算处理的流量洪峰创纪录地达到了每秒40亿条的记录,数据体量也达到了惊人的每秒7TB,基于Flink的流批一体数据应用开始在阿里巴巴最核心的数据业务场景崭露头角,并在稳定性、性能和效率方面都经受住了严苛的生产考验。本文深度解析“流批一体”在阿里核心数据场景首次落地的实践经验,回顾“流批一体”大数据处理技术的发展历程。

随着 11 月 11 日 12 点钟声的敲响,2020 年双 11 的 GMV 数字定格在了 4982 亿,在 Flink 实时计算技术的驱动下全程保持了丝般顺滑滚动,基于 Flink 的阿里巴巴实时计算平台也圆满完成了今年双 11 整体经济体的实时数据任务保障,再次平稳度过全年大考。

除了 GMV 媒体大屏之外,Flink 还支持了诸如搜索推荐实时机器学习,广告实时反作弊,菜鸟订单状态实时跟踪反馈,云服务器的实时攻击探测以及大量基础设施的监控报警等等重要业务。实时业务量和数据量每年都在大幅增长,今年的实时计算峰值达到了创纪录的每秒 40 亿条记录,数据体量也达到了惊人的7 TB 每秒,相当于一秒钟需要读完 500 万本《新华字典》。

截止目前,我们的实时计算作业数达到了 35000 多个,集群总计算规模也达到了超过 150 万核,在中国乃至世界范围内都处于领先水平。至此,Flink 已经支持了阿里经济体所有的实时计算需求,实现了全链路数据实时化,第一时间为消费者、商家以及运营人员带来了数据的价值。

但今年 Flink 技术演进带来的价值不仅于此,基于 Flink 的流批一体数据应用也开始在阿里巴巴最核心的数据业务场景崭露头角,并在稳定性、性能和效率方面都经受住了严苛的生产考验。

40亿条/秒！Flink流批一体在阿里双11首次落地的背后

“流批一体”在阿里核心数据场景首次落地

事实上,Flink 流批一体技术很早就在阿里巴巴内部开始应用了。Flink 在阿里的发展始于搜索推荐场景,因此搜索引擎的索引构建以及机器学习的特征工程都已经是基于 Flink的批流一体架构。今年双11,Flink 更进一步,利用流批一体计算能力,助力数据中台实现更加精准的实时离线交叉数据分析和业务决策。

阿里的数据报表分为实时和离线两种,前者在诸如双 11 大促场景下的作用尤为明显,可以为商家、运营以及管理层提供各种维度的实时数据信息,并帮助其及时作出决策,提升平台和业务效率。例如:在典型的营销数据实时分析场景,运营和决策层需要对比大促当天某个时间段和历史某个时间段的数据结果(比如大促当天 10 点的成交额和昨天 10 点成交额的对比),从而判断当前营销的效果,以及是否需要进行调控、如何调控等策略。

在上面这种营销数据分析场景下,实际上需要两套数据分析结果,一套是基于批处理技术在每天晚上计算出的离线数据报表,一套是基于流处理技术算出当天的实时数据报表,然后针对实时和历史数据进行对比分析,根据对比结果进行相关决策。离线和实时报表分别是基于批和流两种不同计算引擎产出,即批和流分离的架构不仅会有两套开发成本,更难以解决的是数据逻辑和口径对齐问题,很难保证两套技术开发出的数据统计结果是一致的。因此,理想的解决方案就是利用一套流批一体的计算引擎进行数据分析,这样离线和实时报表将天然一致。鉴于 Flink 流批一体计算技术的不断成熟,以及前期在搜索推荐场景的成功落地,今年双 11 数据平台开发团队也展示出坚定的信心和信任,与 Flink 实时计算团队并肩作战,共同推动实时计算平台技术升级,第一次让基于 Flink 的流批一体数据处理技术在双 11 最核心的数据场景顺利落地。

40亿条/秒！Flink流批一体在阿里双11首次落地的背后

今年由 Flink 团队和数据平台团队共同推动的流批一体计算框架在双 11 数据核心场景成功首秀,也得到了阿里数据中台负责人朋新宇在业务层的认可:流批一体在技术上,实现了哪怕是多个计算处理模式,也只需要撰写一套代码就能兼容。在计算速度上比其他框架快1倍、查询快4倍,给小二们搭建数据报表提升了4-10倍的速度。同时,由于"一体化"的特性,能实现实时与离线数据的完全一致。

40亿条/秒！Flink流批一体在阿里双11首次落地的背后

除了在业务开发效率和计算性能上的进步,流批一体计算架构也让集群资源利用率得到大幅提升。阿里的 Flink 实时集群经过最近几年的高速扩展,已经达到了百万核 CPU 的计算规模,上面运行着数万个 Flink 实时计算任务。白天是实时数据业务的高峰期,晚上业务低峰期计算资源出现空闲,正好可以为离线批任务提供免费的计算资源。批和流一套引擎,运行在一套资源底座上,天然的削峰填谷,自然的混布,不仅节省了开发成本,同时也大幅节省了运维成本和资源成本。今年双 11,基于 Flink 的流批一体数据业务,没有额外申请任何资源,批模式全部复用 Flink 实时计算集群,集群利用率大幅提升,为业务方节省了大量的资源开销,高效的资源模式也为后续更多业务创新提供了沃土。

“流批一体”,Flink 十年磨一剑

接下来让我们从技术角度聊一下“流批一体”大数据处理技术的发展历程。这要从开源大数据技术的鼻祖 Hadoop 开始谈起,10 多年前 Hadoop 作为第一代开源大数据技术出现,MapReduce 作为第一代批处理技术解决了大规模数据处理问题,Hive 的出现更是让用户可以用 SQL 的方式进行大规模数据的计算。但随着大数据业务场景的逐步发展,很多应用都对数据实时化产生了越来越强烈的需求,例如:社交媒体,电商交易,金融风控等行业。在这个需求背景下,Storm 作为第一代大数据流处理技术应运而生,Storm 在架构上和 Hadoop / Hive 完全不同,它是完全基于消息的流式计算模型,可以在毫秒级延迟情况下并发处理海量数据,因此 Storm 弥补了 Hadoop MapReduce 和 Hive 在时效性上的不足。就这样大数据计算在批和流两个方向都有了各自不同的主流引擎,并呈现出泾渭分明的格局,大数据处理技术经历完了第一个时代。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力