运维数据:建设与落地AIOps的基石
(5)容量规划预测:为保证业务的正常运营,企业需要对容量进行合理的评估。过多的预留容量会造成浪费、增加企业成本;而过少的容量则可能带来故障、造成业务损失。而随着IT架构的广泛云化,容量评估也不仅仅是对硬件需求的预测,更有可能是为优化业务运行成本而进行的服务平台选择的关键。利用智能运维中的解决方案,通过分析业务量、业务性能以及资源的占用情况的历史数据,并结合业务量预测数据来建立容量规划模型,从而在保证业务性能最优的同时帮助企业节省运营成本。 (6)业务与性能关联分析:应用故障以及性能问题发生时,往往会影响用户体验进而对业务造成影响,在智能运维方案里,通过建立业务关键指标与性能之间的关系模型,从海量的历史数据中分析性能与业务之间的非线性、多因素关系,从事后的影响评估、事前的What-if预测分析等多方面来考虑性能问题对业务的影响。比如通过分析IT性能提升与降低对业务好坏的量化影响来快速发现业务与IT性能之间的量化关系,分析IT性能对业务的影响程度。 (7)告警压缩:企业各种监控工具会产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰。传统运维平台无法对告警风暴进行有效处理,而在智能运维中,我们针对短时、大量、甚至是持续的冗余告警,可以通过相似度、相关性判断对这些冗余告警进行合并,从而为运维人员提供有效的告警信息,大幅降低运维工作难度、提升运维KPI。 (8)智能化故障处理:传统运维管理中对故障的处理非常依赖运维人员的经验,但人的经验无法覆盖所有故障范围,运维人员经验不足可能造成运维效率低下或者产生错误决策。而在智能运维中,将API接入的实时监测结果或预测结果引入决策知识库(智慧大脑)智能生成决策建议,并根据实际结果及趋势判断采用的处理策略,可以是人工处理或者自动处理。故障智能处理可以减少问题排查的时间、大幅提高问题解决的效率,提升企业运维标准化程度。 总结和展望 运维数据作为AIOps的最基础构成,无疑起到了基石的作用。企业在实施AIOps时,必须从最开始就注重运维数据,建设数字化运维数据体系,践行数据文化与应用模式,面向业务与用户体验不断迭代与优化,才能把AIOps战略落到实处。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |