西安三星电子研究所研发经理何兴:新基建下的存储创新
中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日新技术与测试分论坛上,西安三星电子研究所研发经理何兴发表了“新基建下的存储创新”主题演讲。 西安三星电子研究所研发经理何兴 我是来自三星的何兴,今天跟大家分享《新基建下的存储创新》。 三星其实是做SSD的公司,大家其实也知道,SSD这个东西每一年都会有新的产品推出,因为现在技术每一年都会在演进,每一年、每一家公司根据最新的技术,会推出新的控制器。基于最新的控制器、最新的一些软件,每家公司其实都有一些新的硬件产品,所以每一年其实我们的客户都会收到我们最新的SSD产品然后进行测试,这是硬件方面的演进。 在软件方面,其实现在也有很多新的创新点,我今天分享的更多是软件方面的创新。 Telemetry 我今天分享分为四个部分,首先分享一下Telemetry,Telemetry翻译过来是遥测的技术,我理解在SSD端可以提供更多的一些参考信息,给主机端、给客户,让他知道SSD实际运行的状况,还有健康的状态。 如果没有类似的Telemetry这个功能,系统里面有几个SSD坏掉了,有一些应用正在使用这些存储设备,中间会有一个恢复的过程,这个过程可能需要这边切到另一个节点,需要一定的时间,业务可能会产生一定时间的中断。但是如果你有Telemetry这个系统的话,中断时间会非常少,因为我们通过这个系统可以提前获得很多SSD内部的信息。也可以用它做一些非常有用的东西,比如说我可以对现在SSD的运行状态做分析,对它的失效做预测,这样的话你的SSD整个系统的恢复时间就会大大缩短。 Telemetry在NVMe协议里规定有有三个部分,如果你把所有的东西全部填满大概32MB,有一个非常灵活的解决方案,各个厂商可以根据他们的需求,也许你只有一部分的数据需要,可以用Data Area1,或者1+2+3等等不同组合。从SSD端可以提供更多的信息给主机端,让主机判断SSD具体的情况,还有SSD失效是具体什么原因造成失效。 这是做的一个对比,我们也在跟一些客户合作做Telemetry的系统,做这个系统的初衷就是有很多的客户反馈,说现在有很多像一些大的数据中心几万块或者几十万块的SSD,如果有一些SSD出错的话,客户不太清楚SSD究竟是因为什么原因来造成出错,一般的办法是直接把它换掉。换掉也不会再插上去,客户不太清楚这个盘插上去是不是能用,会造成一些资源的浪费。 很多情况下,SSD虽然出现一些业务的抖动,但不一定是SSD本身的问题,或者说掉盘,可能是整个系统的问题,不是SSD本身的问题。这个时候也许你把SSD热插拔一下,拔下来再插上去,SSD跟以前一样还是可以用。很多客户为了保险起见不敢这样做,也就是说换下来的盘以后再也不会用,但是这些盘其实很多没到使用年限,简单处理一下完全可以重新使用,所以我们觉得这个是客户的痛点,也是我们开发这个系统的初衷。 上图就是如果没有这个系统的话,我们一般出错的话很多客户都是把SSD寄给我们,我们做一些分析,比如说用一些分析工具来做检测,看SSD是不是正常,这样的话有时候厂商都不在中国的话需要寄到那边分析回来,这时候几周过去了,客户觉得这个时间比较长。但是如果你有这个系统的话,它定期可以收集一些数据,通过这些数据可以非常精准定位SSD出错的原因,这样的话只需要几天就可以把问题定位,然后反馈给客户。 另外一个价值就是我们可以通过这个系统做一些比较深入的分析,比如说像刚才那种情况,SSD掉盘了,我们如果通过这个系统前面抓的数据来判断,这个SSD其实没有问题的我们可以告诉客户你只要把它热插拔一下再插上去完全可以使用,这样对客户的成本也有好处。 这是现在做的一个系统,我们跟一些大的客户有合作,在他们的数据中心里面大概几万块或者更多几十万块,然后定期收集一些数据,用这些数据作为一个输入到我们的系统里面,做一些分析,再把一些结果反馈给客户。 其实这里面比较有用的几个点,比如说做预测的功能:SSD长时间使用以后把它的使用寿命耗尽,这个时候如果我们通过这个系统做一些预测的话,我可以告诉客户,四周以后SSD会挂掉,你就可以提前做一些干预的工作,比如说提前把它换掉,对后面业务的中断会很有帮助,就不会那么长时间。我们可以做一些分析,比如说你现在有一部分的SSD出错,我们通过这个系统分析出错的原因是什么,也许你买了一批盘,但是放在不同的地方,这批盘运行很好,那批盘集中出问题,我们可以通过系统找出问题。也许你在那个数据中心你的制冷各方面不太达标,我们可以得到数据,给客户一些反馈,客户可以根据反馈再进一步优化他们的数据中心以及其他的系统。 Z-SSD 第二我想介绍的就是Z-SSD,Z-SSD其实是一个SCM的产品,现在很多公司都在进入这个市场,我们为什么要做类似的产品?因为现在像三星有SSD的产品,也有内存的产品,但是我们觉得从延迟的角度来说,内存一般是纳秒级别,现在比较快的SSD就是50微秒到100微秒,中间存在1000倍的差距,客户在这方面需求很多,我们觉得这是比较大的需求,也是比较大的市场,所以也开发了新的SSD叫Z-SSD。 跟普通的SSD相比,它的特点是:第一它的延迟非常低,它大概只有10微秒左右,一般的SSD是100微秒,是10倍的差距;另外是使命寿命,我们用的是耐久度比普通的好很多,它会有30DWPD,耐久性非常高,也就是说一般的SSD DWPD 1或者3已经写得快要完的时候,它还可以用很长的时间,这是它非常优势的地方。 我们觉得它现在主要应用场景是两个,分别是cache和tiring.具体来说用数据库做一个例子 数据库系统读写一段数据其实不是客户写一个数据就把数据写进去,或者改一个数据把它读出来再写进去,这样的话开销非常大,因为整个系统里面其实开销最大的就是存储设备的IO的开销,所以很多对系统的优化就是对IO次数的优化。我写一段数据的时候不会直接写到数据库里面,而是先写到内存里面,然后写log, 然后给上层的应用说这个写已经完成了。然后我在系统不忙的时候会有后台线程把它集中刷下去,这样的好处可以减少跟磁盘交互的次数,减少你的IO,整个系统的性能会提升非常多。我们觉得像这种LOG用Z-SSD存储的话,整个性能都会提升非常多,我们也做了一些测试,其实效果都非常明显,如果你LOG存在Z-SSD里面,把其他数据存在T-SSD或者Q-SSD里面,整个系统性能会有非常明显的提升。 ZNS (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |