迎战双11，苏宁的多数据中心多活如何建成？

发布时间：2020-10-27 15:52:56 所属栏目：产品来源：InfoQ

导读：随着苏宁线下线上业务以及全产业、全业态规模式快速增长，特别是每年苏宁 818 大促、双 11 等大促节点，销售订单基本都呈现倍数级增长态势，需要进行大量资源扩容，单个数据中心的容量有限，已经无法支撑苏宁业务的快速发展。同时，单数据中心在高可用上存

基于服务路由的功能，为了实现同一用户的交易在同一数据中心进行，减少跨数据中心网络延迟，需要对用户流量进行精准分发。流量在进入数据中心前，按照一定的路由规则，确定好待分发的目标中心，以减少数据中心之间的二次转发。比如，苏宁在 CDN 层进行用户的初次路由，将用户分发到不同的数据中心。

数据中心内部，对服务层设置多种路由策略，比如设置接入层、RPC、DAL 等的路由方式以及业务服务拆分，使得同一个用户所有请求尽量收敛在同一个数据中心，实现流量精准划拨，避免跨机房调用。

请求的收敛设计确保流量按照 Cell 级别划拨到不同的数据中心，并在同一中心封闭收敛，这也是实现多数据中心部署的基础。

5、数据高可用

微信图片_20201027144859

为了确保数据高可用以及任何一个机房故障都可被接管，所有数据中心都包含全量数据，当主数据中心的变更将会实时同步到各个从数据中心。

数据中心之间延迟相对数据中心内部延迟较大，数据中心之间的同步一般采用异步复制方式。在机房故障等极端情况，将出现少量数据未同步到其它数据中心，针对此类故障场景，在机房恢复后，需要对未同步的数据进行人工修复。

4技术难点

按照多活的架构设计，并结合苏宁的业务特点和 IT 技术现状，需要优先解决相关的技术难点。

1、高可用实现

高可用实现原则

微信图片_20201027144942

数据中心高可用分成两部分：

（1）单数据中心内高可用

集群内部高可用

无状态服务 (比如应用服务器)：采用 N+1 方式部署，任何一台故障，流量都可被其它机器所接管。

有状态服务 (比如数据库)：采用 2N（一主一从）或 3N（一主两从）方式部署，任何一台故障，在秒级切换到另外一台机器。

（2）多数据中心间高可用

单系统同城高可用：任何一个系统有计划维修或非计划性故障，都可切换到另外一个数据中心

全链路同城高可用：当机房级别故障或维修时，可切换到另外一个机房接管。

全链路异地高可用：当出现地震等特殊场景，异地机房可进行接管，避免同城两个数据中心同时故障等异常场景。

其中机房级别故障切换时间一般在分钟级别。

高可用实现指标

微信图片_20201027145031

RPO(Recovery Point Object)：表示机房级别故障时，未被同步的数据时长。考虑到 MySQL 在特殊情况下复制延迟较大情况下，RPO 设置为分钟级别，正常情况下 RPO 为秒级

RTO(Recovery Target Object)：表示机房故障情况下，关键流程或系统切换恢复时间，一般为分钟级别

WRT(Work Recovery Time)：表示故障时，由于 RPO 导致的未同步异常数据修复完成时长，一般为小时级别。

高可用实践

服务切换

微信图片_20201027145054

（1）数据复制拓扑结构

对于分片数据跨机房复制方式主要分成两种：

单向交叉复制：两个机房同一个分库的两个不同集群之间采用主备模式进行复制，仅主集群提供写操作，如上图所示 Cell4 的 LDC-B 做为主集群复制到 LDC-A 备集群， Cell8 的 LDC-A 主集群复制到 LDC-B 的备集群

双向复制：两个机房同一个分库的两个不同集群之间采用主 - 主模式进行复制，两个机房的集群同时提供写操作服务

复制拓扑结构比较