加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

【IDCC2019】京东数科姚秀军:机房巡检的新方向与探索

发布时间:2019-12-19 21:19:11 所属栏目:产品 来源:中国IDC圈
导读:2019年12月18-19日,第十四届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。 以

2019年12月18-19日,第十四届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营­­商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。 以“智能运维与安全”为主题的分论坛于19日下午举行,京东数科智能机器人业务部总经理姚秀军出席本次会议,并发表了《机房巡检的新方向与探索》主题演讲。  

WX20191219-154720

京东数科智能机器人业务部总经理姚秀军

姚秀军:大家下午好,我是来自京东数科智能机器人业务部的负责人姚秀军,很荣幸有机会跟大家分享一下我们在机房领域围绕巡检这个场景的探索。 

作为京东来说它本身有大量的机房和设备,在运维过程中也是在前期走了很多弯路,其中在巡检这一块我们认为最多的一点,因为现在有大量的外包人员,这些外包人员在巡检过程中列的三大块上跟我们业务契合不是特别好:1、准确性;很多外包人员有没有进行巡检,有没有仔细进行巡检这是一个很难估量的。2、及时性;因为我们知道在人工巡检的时候很难达到7×24时间的覆盖。3、完整性。只能从他自己巡检的某一个环节、某些主干线上覆盖,如果把所有设备完整的巡检下来需要的人力资源占用非常大。    

其中最重要的一块我们认为是起码很难在数字资产这块形成一些积淀,我们知道现在的互联网企业最大的资产就是数据,就是我们一直提的数字化资产,这是现在整个互联网产业最基础的一层,原来传统的方式巡检了很多年但很多这方面的经验很难通过数字化的形式沉淀下来。我们一直在探索/思索,未来智能化运维、智能化巡检有没有可能?    

我们在京东品牌下,结合京东已有的能力,从AI到机器人的能力再结合品牌和整合上下游供应链的能力做了很多这方面的探索和探讨,最终我们形成了一个结论,未来的无人化运维是完全可能的,而且需要一个最小的子集就能实现,这个子集就是以AI为中心,中间形成了四套系统,四套系统里面其中三套系统现在的无论是IDC还是常规机房都是具备的,这三套是动环监控系统、第二运维系统是必不可少的。另外一块是资产管理类的相关系统,但是这里互补的最重要的一环在巡检里面目前没有一套完整的解决方案和产品覆盖的,也是结合这样一个大的命题和结论,我们整体上推出了整个机房的巡检机器人解决方案,它最大的核心就是以AI为基础,我们知道这些年AI的快速发展在很多场景已经在落地开发。京东作为一家互联网公司也是在AI方面沉淀了很强的能力,我们知道在互联网企业里边本身有AI投入的动机和使用的动机,所以在这一块我们在相关的机器学习、图像识别、决策规划、专家系统等等再结合实物性的产品,整体上推出了机房巡检一整套代替人工巡检的产品。目前来说推出了两个版本,一个是旗舰版,是满足绝大部分的场景和需求的。另外一个版本是更高的版本,这个版本是带机械臂的,通过六轴级别臂能做更多复杂的工作,这两个机器人的特点是真正符合智能机器人的场景,我现在做的客户里面绝大部分是金融客户,很多金融从业者知道金融对这方面的要求是非常高的,而且核心机房里是不允许WIFI和网络的,这样就带来一个问题,不允许有网络,整个机器人任务出去了是个黑匣子完全看不到,在长达几小时的任务过程中出现任何问题远程控制都是不知道的,出了问题该怎么管理,尤其是金融机房,出任何问题都是大事故。所以在这里边我们做了层层的从软件方面的策略的防护还有相互的互备,还有大量的人工智能算法在里面,相互互补形成一个立体多维化的网络体系,保障它的金融级别的要求。    

下面一个视频是我们能看到的现在整个产品在机房里实际的工作经过,是在京东自有M6的机房,通过六轴机械臂,通过边缘计算走小规模的数量级,通过设备状态、指示灯、开关的状态、发热的情况等等进行整体分析,代替人巡检的整套流程。另外除了对设备本身进行管理之外还有人员,通过大量的视觉技术进行视觉跟随,对于人员在机房内的操作流程进行全流程管理、录像、行为分析,有特征性的行为可以做成模型单独分析。整套过程有巡检任务和结果,我们可以设定规则和触发事件的问题进行及时响应和处理。    

除此之外我们在这方面也做出了很多其他方面的探索,不光在机器人巡检本身,刚才提到很重要的一个概念叫数字资产,在数字资产之上通过机房巡检机器人,结合刚才讲到的其他系统收集到的数据做下一步的探索,而且小有成果,哪些方面的探索呢?比如服务器的采购,为什么影响服务器的采购?很简单,不同类型的服务器,不同算力不同的CPU占用和内存占用情况下机器发热量是不一样的,通过所有的数据整合起来建模,未来进行采购的时候可以很好的指导我们可能采购哪个类型服务器更有效的节省能源,因为在IDC里很重要的一块成本是能源,另外是基于数字资产形成的模型可以固化成经验模型,在经验模型之上除了指导我们巡检,还有像未来得故障预测,如果这个服务器出现这样的情形之下再往下走,按照同类型的推理会发展成什么样的,起码我们对未来服务器的状态演变是可预测的。    

整套机器人的解决方案是由软硬件两部分组成的,我们看到左侧部分是机器人的主体部分,右侧是由几套软件构成的,1、人机交互系统,在机器人上面有个小pad,机房中人员可以随时对机器人进行干预和执行任务和其他的配置。比如刚才提到带机械臂的机器人在行业里走的是最早的,推出第一板的时候很多客户提出质疑,带机械臂的在机房里有什么样的风险,我们进行了探索,通过端到端控制和利益反馈机制达到所有的安全,所有的规则都可以通过HMI进行整体的配置,机器人在两米范围内的时候,无论做什么动作可以暂停,这样在机房欢迎里最大程度禁止人的干涉。2、管理平台,通过管理平台进行调度协作、巡检的任务、任务规划、巡检结果、数据分析一整套的体系。3、可以部署到本地或者云端化的服务器,服务端程序这个没有什么特别的,因为时间关系不详细介绍了。    

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!