加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

XSKY SDS V4.2重磅发布,为数据基础设施注入“免疫力”

发布时间:2020-04-28 14:46:05 所属栏目:动态 来源:站长网
导读:在不确定性中寻找确定性。 01抵抗不确定性的免疫力 这次疫情黑天鹅,让许多企业用户开始意识到,系统的数字化能力是抵御包括疫情在内的诸多不确定性风险以及未来就绪的最佳途径。 通过将数字化转化为生产方式,无缝融入商业模式和全场景体验,构建线上线下的一

在不确定性中寻找确定性。

  01抵抗不确定性的“免疫力”

这次疫情“黑天鹅”,让许多企业用户开始意识到,系统的数字化能力是抵御包括疫情在内的诸多不确定性风险以及未来就绪的最佳途径。

通过将数字化转化为生产方式,无缝融入商业模式和全场景体验,构建线上线下的一体化链条,让企业真正获得抵抗不确定性的“免疫力”;而这样的前提在于:

 第一,在如此快速变化的时代,业务和需求都在快速迭代,用户的应用也正在更多的向云原生和微服务架构转型,这要求基础设施能够快速部署以及灵活可扩展;

第二,当下的经济环境,需要在技术先进性和经济合理性中找到平衡支点;

第三,如果说企业的“免疫力”来自于系统的数字化能力打造,那么稳定、持续的数字化能力输出大概率来自于系统的健壮性。核心的数据基础设施如果同样拥有了“免疫力”,无疑能够更好的抵御各种故障对系统的冲击,保证上层业务的正常运行。

  02XSKY SDS V4.2正式发布

日前,为了帮助企业用户更好的应对当下不确定性的大环境,增强抵抗各种不确定性的“免疫力”,XSKY正式迭代发布了V4.2版本,带来了一系列新功能以及增强的特性,让SDS更加可靠,易用和可运维。

本次版本中,带来了数据校验增强,硬盘亚健康处理,网络亚健康处理,闲时自动重平衡四大重磅功能,从数据端到端安全、硬件组件的亚健康管理和容量管理三大领域进行“免疫力”提升,同时还带来了场景化进一步增强等九项新增与优化功能;并全新发布XSKY S3 Console对象接口产品,帮助客户进一步降低使用对象产品的门槛。

基于上述发布,客户在一系列业务场景中实现了性能倍增,以及面对多样化的工作负载,进一步简化运维,增强抵御系统故障的能力:

1、VMware场景,vSphere中vMotion、克隆操作的复制性能提升了1.5倍;

2、容器场景,Pod创建速度更快,以100个Pod创建速度为例,从30+分钟优化到4分钟,效能提升7.5倍;

3、相同硬件配置情况下,整个系统支持对象数比上一个版本提升了1倍。

以上是场景中显著提升的部分,同时还有整体系统性能稳定性的提升。

  03可靠性增强

  1、高强度实时数据校验

数据静默错误是现代存储系统最难处理的故障之一。现在机房周边环境复杂,特别是SSD的大量使用,使得外部的强干扰导致本来输入的0/1的高低电平发生改变而发生静默错误的几率越来越大。

XSKY过去版本在多副本(EC)数据保护已经积累了大量的数据安全性保证措施,同时支持定期后台数据扫描来检查不一致。

在V4.2版本中,我们又增加了一个强有力的数据保护措施,通过在IO路径加入了实时数据校验机制来确保数据读写的即时安全。该措施使得在写IO的时候,底层存储引擎会计算写入数据的CRC值并记录到对应数据的元数据中;

读IO的时候,会读出数据,同时计算CRC值然后与元数据中记录的CRC比对,如果不一致,告警,使用其他副本数据来恢复,恢复后同步会打印告警消息。

实时IO流程的数据校验使得分布式系统整体容错性大大增强,同时解决了数据一致性的即时性问题,避免任何情况下应用从存储系统中读取可能的不一致数据。 

XSKY SDS V4.2重磅发布,为数据基础设施注入“免疫力”

实时数据校验可以按照卷的粒度开启或者关闭,内部实验室性能综合测试评估对系统的性能峰值影响少于10%。建议关键业务开启实时数据校验功能,避免静默错误的发生。

  2、硬盘亚健康检测

硬盘亚健康引起的系统性能抖动是分布式存储极难处理的现象之一,自动检测集群中的慢盘和坏盘,告警并自动隔离,是存储系统在健壮性上的必要支撑。

在新版本中,XSKY进一步完善了检测方法和处理机制。坏盘判断相对简单,会通过检测SCSI/NVME的IO指令错误码, 以及相关设备的介质事件发生(如拔盘)等进行坏盘决策。

而判断慢盘是最需要经验的。XSKY根据现网大量的已部署集群的工程经验,将算法应用到所有的存储介质守护进程(OSD)中进行实时分析,其采用三个维度来判断慢盘:

纵向时延比较:本OSD的性能延迟超过阈值的次数;

横向时延比较:与存储池内其他OSD平均延迟进行比较,通过标准差计算相应偏离;

IO粒度:当一个IO在本OSD对应介质中处理超过一定时间的 。

这种立体的判断方法,使得系统识别慢盘的准确度和速度都大幅提高。

新版本也进一步完善了慢盘的处理流程,采用告警-隔离-重试,逐步递进:

告警:上述检测机制发现的所有磁盘亚健康情况都会发送对应告警到界面,提示用户检查;

隔离:当且仅当出现IO粒度慢盘和坏盘时,系统会指定守护进程(OSD)自动退出;

重试:当且仅当出现IO粒度慢盘和坏盘情况OSD主动退出时,系统会根据对应的错误情况来连续尝试拉起一定次数来,如继续异常则不再拉起该OSD。重试过程中由于OSD已经隔离退出,因此不会影响在线IO。

  3、网络亚健康检测

分布式系统,网络的稳定性对系统的性能影响非常大。XSKY SDS新版本可以自动识别集群网络故障,发送告警信息,协助管理员快速排查网络问题。

实现原理如下:

系统所有守护进程通过分布式网络延迟检测算法,实时判断不同节点的网络延迟和副本之间数据复制的网络延迟来获得当前系统内所有节点的实时网络情况;

计算出系统所有节点中1min, 5min, 15min内的网络延迟的平均值作为评判基线;

遍历系统所有节点的1min,5min,15min的网络延迟数据,通过标准差计算分析偏离指数,当指数超过阈值时则认为网络有问题。

  4、存储池容量分布闲时自动重平衡

分布式存储,在进行扩容或者缩容的时候,会触发存储池进行重平衡。由于算法的拓扑适应性或者人为干预,也有小概率情况下出现算法自动计算的存储池容量不平衡的情况出现。

以前出现这种情况,需要运维人员进行手动的容量再平衡。在新版本中,加入了智能检测这种情况并且智能启动重平衡的全自动化处理流程,避免极端情况下由于某个OSD写满(超过阈值)而引起业务不能写入的现象。

分布式存储系统利用闲时(晚上12点-2点,可配置),对于容量不均衡的存储池(容量差异大于1%)进行重平衡。自动重平衡会以最低恢复带宽进行,也可以关闭,避免对峰值业务造成影响。

  04场景化增强

  1、OpenStack场景优化

很多用户选择XSKY SDS代替OpenStack自带的开源软件定义存储。为了解决资源消耗问题,XSKY自研了具有专利技术的 XDC模块,提供LibRBD proxy代理,通过代理劫持客户端访问RBD的命令,将无序的访问命令统一管理起来,根据系统资源使用情况按需打开RBD通道,从而达到资源的有效管理。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!