加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

【IDCC2019】中国民生银行毕永军:金融数据中心智能运维的探索和实践

发布时间:2019-12-19 21:18:55 所属栏目:产品 来源:中国IDC圈
导读:2019年12月18-19日,第十四届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。 以

2019年12月18-19日,第十四届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营­­商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。 以“智能运维与安全”为主题的分论坛于19日下午举行,中国民生银行信息科技部应用运维二中心负责人毕永军出席本次会议,并发表了《金融数据中心智能运维的探索和实践》主题演讲。 

WX20191219-162727

中国民生银行信息科技部应用运维二中心负责人毕永军

毕永军:很高兴,其实去年的时候也参加过IDC圈的会来讲了一下,刚才我回顾了一下,关于智能运维这个话题从17年开始就讲,18、19年,每次讲感觉会不太一样,17年的时候当时讲的更多的是愿景,我们要搞智能运维,希望未来能做成什么情况,18年的时候就有一些思路了,讲我们要做的思路,要建设成一个什么样的平台,今年可能会讲的更细一些,这说明一个什么问题呢,说明智能运维这一块现在越来越深入、越来越细化,而且开始投入实际使用。像姚总演示的机器人颜值就很高,在机房里放一个肯定是非常吸引眼球的。    

下面开始今天的演讲,大概分几个部分,简单介绍一下智能运维,我们这边做的智能运维跟前面做数据中心及机房巡检这块略微不同,我们是偏 

另外讲一下我们做智能运维探索当中都会做哪些场景。最后把我们做实践当中的成果跟大家分享一下。    

现在看为什么要做智能运维,我们知道机器设备、包括机房随着互联网分布式架构是越来越多,像我们股份制银行对服务器的级别大概在万级,国有大行应该接近十万级,互联网大厂基本上往百万级走了,现在看我们的规模还是非常大的,所以这个对挑战,不能像以前那样靠堆人解决事情了。另外现在系统架构复杂度也会提高,分布式提的非常多,微服务,实际上发现上了这个系统之后也是一个坑,为什么是个坑呢?本来一台主机问题就解决了,现在两百台上去,机器故障率各方面,占地、耗电、制冷各方面都是挑战,这个东西发现上了之后得上些手段,要不然运维是非常痛苦的。    

再有我们看故障的处理难度,像刚才讲到的金融数据中心对故障处理要求太严了,其实说白了主要是我们受监管的要求,很多事情我们规定出现任何事情要在半小时内解决掉,但是系统很复杂,半小时内怎么解决掉?像民生原来提双十标准,10分钟定位问题10分钟解决问题,抽出来我们在故障解决当中最费时间的两个环节,我们希望把它减少。    

再一个是运维数据量还是很大的,机器规模上来了,日志各个方面都很多,大家觉得应该是有价值的,但是这个数据实际上是贫矿,有用价值的数据并不多,怎么把它用起来就需要进一步的挖掘,所以这个面临很多的挑战。    

Gartnen以前列了一个图,中国以前提监管控,Gartnen它认为2022年全球部署智能运维的企业要达到40%,这是一个潮流,我们肯定往这个方向走。从前几年的演讲来讲,肯定是处于底步阶段,从点上来讲,从场景入手,以前靠人巡检,人也容易疲劳、出错,我们可以靠机器人做这种事情,现在还是以功能点为主。    

我们再反过来看智能运维这个事情,其实很多年前大家在提商业智能BI的时候,大家都会提,我们其实是从数据出发,数据里边可能会提供一些信息,信息总结之后会变成知识,再高一层次我们说人作为一个高级动物,认知功能在里边是提供智慧,所以智能运维这一块发展我们做一些事情对于数据的处理基本上还是符合这个步骤的。    

我们具体怎么做的呢?从17年去做,在做的过程中也认识到AI本身还是有些局限性的,现在大家讲很多是感知型的人工智能,还有认知型,希望像人一样去认知去思考,像机房机器人也是感知,要拍照识别,但是它能不能像人一样思考联系一下这个故障可能跟哪些东西有关,怎么解决这个故障呢?现在可能还做不到,所以我们现在做的很多还是根据统计学、关联、因果的关系做这些事情。当然数据挑战也很大,数据中心在做,我们所有的业务系统,对我们来讲几百套业务系统遵循的标准不一样,处理这些数据也会面临挑战。另外原来的人基本上是专业性很强的,做服务器的、存储的、网络的,实际上懂AI、算法、整体的人还比较少,人也比较缺。有很大的挑战。所以我们定了一个思路是从痛点出发把比较难做的,做起来比较慢的或者人力需要很重的场景去做,重点是降低运维成本提高效率,同时希望智能运维系统能够学习人的经验,通过一些专家知识的方式提高我们的运维效率。    

下面看一下我们在做运维场景设计的时候,基本上是去抽取,因为做智能运维肯定不能全部都去做,一定要找典型场景,怎么做这件事情呢?一个是能够把运维信息整合起来的场景要重点客观,因为机器处理比人更高级的是处理能力比人强、做运算比人强,但是做推理、逻辑思考现在还是比较困难的。另外对于一些人有经验的,能够固化、标准化起来做自动化处理的场景重点考虑,重点在于提升效率而且这种场景要融入现有流程,其实现在大家对人工智能感触很多,比如到机场发现人脸识别,身份识别马上可以通过安检了,这就用到图象识别技术,串在安检流程当中去,未来运维当中也是一样的,这个场景一定会串到日常运维流程里边,在里边发挥作用。    

我们首先看一个很典型的场景,我们做故障处理的,做运维的很重要的环节,一般会做影响分析,看定界是什么,这个问题影响哪些系统、哪些业务,再看这个问题根据抓的数据做特征分析,这个问题是一个服务的故障还是多个的、还是多个系统的?监控指标正常不正常,是不是服务器不正常导致业务不正常还是存储不正常导致业务不正常了?还有看系统运行的日志信息,拿到信息之后要靠历史经验做共性分析,分析之后觉得以前这个问题碰到过,知道是什么问题,这个问题怎么解决,后面做执行解决。大概处理的时候是人去处理的过程。在这个过程里用智能运维在每个环节能够发挥什么作用,就把它放进去。    

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!