加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

运维数据:建设与落地AIOps的基石

发布时间:2020-05-22 15:19:06 所属栏目:动态 来源:站长网
导读:自全球著名IT咨询机构Gartner在2017年正式提出AIOps以来,国内外各个企业与厂商都在积极探索与尝试利用大数据、机器学习技术来改进和增强传统IT运维能力(如在监控、自动化和服务管理等方向)。 关于AIOps,业界有很多的定义和解释,但笔者在2019年底参加G

      (5)容量规划预测:为保证业务的正常运营,企业需要对容量进行合理的评估。过多的预留容量会造成浪费、增加企业成本;而过少的容量则可能带来故障、造成业务损失。而随着IT架构的广泛云化,容量评估也不仅仅是对硬件需求的预测,更有可能是为优化业务运行成本而进行的服务平台选择的关键。利用智能运维中的解决方案,通过分析业务量、业务性能以及资源的占用情况的历史数据,并结合业务量预测数据来建立容量规划模型,从而在保证业务性能最优的同时帮助企业节省运营成本。

      (6)业务与性能关联分析:应用故障以及性能问题发生时,往往会影响用户体验进而对业务造成影响,在智能运维方案里,通过建立业务关键指标与性能之间的关系模型,从海量的历史数据中分析性能与业务之间的非线性、多因素关系,从事后的影响评估、事前的What-if预测分析等多方面来考虑性能问题对业务的影响。比如通过分析IT性能提升与降低对业务好坏的量化影响来快速发现业务与IT性能之间的量化关系,分析IT性能对业务的影响程度。

      (7)告警压缩:企业各种监控工具会产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰。传统运维平台无法对告警风暴进行有效处理,而在智能运维中,我们针对短时、大量、甚至是持续的冗余告警,可以通过相似度、相关性判断对这些冗余告警进行合并,从而为运维人员提供有效的告警信息,大幅降低运维工作难度、提升运维KPI。

      (8)智能化故障处理:传统运维管理中对故障的处理非常依赖运维人员的经验,但人的经验无法覆盖所有故障范围,运维人员经验不足可能造成运维效率低下或者产生错误决策。而在智能运维中,将API接入的实时监测结果或预测结果引入决策知识库(智慧大脑)智能生成决策建议,并根据实际结果及趋势判断采用的处理策略,可以是人工处理或者自动处理。故障智能处理可以减少问题排查的时间、大幅提高问题解决的效率,提升企业运维标准化程度。

     总结和展望

运维数据作为AIOps的最基础构成,无疑起到了基石的作用。企业在实施AIOps时,必须从最开始就注重运维数据,建设数字化运维数据体系,践行数据文化与应用模式,面向业务与用户体验不断迭代与优化,才能把AIOps战略落到实处。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!