对标数字未来,智能运维AIOps何以美好

来源:互联网 时间:2019-07-04

简到极致,便是大智。简到极致,便是大美。数字化之于金融行业追求的便是一种简到极致的服务体验,然而行业数字化程度越高,IT系统的复杂度和规模就越大。特别是随着科技的进步,区块链、容器、物联网等Fintech技术相继落地,带来更加开放的格局。如何有效地利用ABC技术实现高可用、高性能和高可扩展,并且维持信息系统有效、稳定、持续地运行?智能运维的呼声越来越高。

  IT运维之变, ITOM/ITSM向AIOps演进 

近年来,金融行业的IT系统架构逐渐从“传统集中式架构”转向“互联网架构”,互联网架构所涉及的云化、分布式、DevOps等,使得IT运维的压力越来越大。随着AI技术的商用,监管部门鼓励金融机构利用智能化手段进行业务创新和IT运维管理,所以运维体系在经过了脚本化、工具化、自动化之后,逐渐向智能化发展。2016年,AIOps的概念被Gartner正式提出:使用智能算法解决已知的IT问题,并自动化重复的工作。

经过几年的争论和实践,现在行业对AIOps基本形成共识:融合大数据,机器学习获得深入的洞察力,实现IT运维能力和运营能力的全面增强,发掘更多运维人员尚未觉察的潜在的系统故障和运维问题。随着IT管理由ITIL进化为DevOps,运维管理平台也从ITOM/ITSM向AIOps不断演进。

Gartner预测,到2022年,40%的大型企业将选择结合大数据和机器学习能力的AIOps,支持和部分替代IT监控、服务台和自动化流程和任务,成为IT部门提升运维效率、降低运维成本的重要手段。那么,AIOps如何与金融行业复杂的IT系统实现融合呢?

金融业AIOps智能运维场景解析

由于金融业的IT成熟度高,数字化转型需求迫切,有大量场景亟需AIOps能力。比如,海量日志数据分析、告警风暴抑制、通过告警事件追踪故障根因、预测业务风险等等。

云智慧CEO殷晋认为,AIOps基于金融行业的应用场景,依托大数据和人工智能技术,能够实现业务指标与IT监控、分析、预警、处理场景的融合,通过关联分析和交易链路追踪,最终能够发现和解决实际业务问题。

图片1.png

云智慧智能运维平台

通常情况下,业务系统出现异常,最直接、最直观反映就是关键业务指标出现异常波动。以云智慧某保险行业头部客户为例,业务系统异常时,系统处理保单的能力会显著下降。

但是,如何正确判断“保单量”出现下降呢?传统的方式就是设置一个固定的阈值,当实时监控到的保单量超出上述阈值时,即认为保单量出现异常。传统监控系统的固定阈值告警,就是籍此产生告警信息的。

这个逻辑表面看上去没有问题,但是仔细想一下,每天凌晨的时候,会有多少新的保单提交到系统中呢(假设保险公司只受理国内的业务)?显然,每天上午10点到12点之间新提交到系统中的保单量要远远多于每天凌晨提交到系统中的保单量。以此类推,业务系统在促销活动期间和平日处理的保单量也存在显著的差别。因此,企业很难用固定阈值来判断业务系统保单量指标是否出现异常。

为了解决上述问题,云智慧AIOps平台采用多算法集成学习模式,并引入3种针对时序数据的异常检测方法:动态基线、同比/环比和指标异常检测。

动态基线基于历史数据,利用智能算法进行深度学习,对未来一段时间内的每个时间点的数值进行预测,以预测值作为基线,并通过比较实际值与基线的偏离度(百分比差异)来监控和告警。这种方法适用于已知某数据指标呈周期性变化且没办法给出每个周期的准确值或者周期内的数据变化过多的场景。

同/环比变化用于发现某个待监测指标的变化趋势是持续变好还是持续变坏。将目标监控值与历史同期数据的分布和同环比的变化情况进行对比,根据数值或百分比差异情况判断新进数据是否异常,并作出判断是否进行告警。

指标异常检测为了应对不对业务模式的数据差异化特点,采用无监督集成学习算法,无需人工设置固定阈值和定义基线偏离度,系统根据不同数据特点,选择不同算法去做针对性的检测,并对异常进行整体评估,自动识别不符合期望的数据后产生告警。

在银行业,云智慧AIOps同样在多家商业银行的智能业务链路追踪场景中发挥价值。我们都知道,任何一笔金融业务的交易链路都可能涉及几十个环节,IT追踪非常困难,过去都是基于垂直系统的监控数据由人工去做的。现在,利用AIOps的实时数据分析能力,自动对交易进行全链路追踪,对采集到的数据进行智能关联分析,快速得到想要的结果。

云智慧AIOps平台以事件为核心,基于大数据技术和机器学习算法,实现IT全生命周期的统一管控。对来自于各种监控系统的告警消息与业务指标进行统一的接入与处理,帮助金融企业打通数据孤岛,统一运维的标准与管理规范,减少对运维的事务性干扰,实现事件的智能告警、异常检测、根因分析、智能预测等。

AIOps智能运维落地最佳实践

2016年,云智慧在国内率先推出了智能业务运维解决方案,并在多个互联网+转型需求迫切的行业展开实践。历经3载,云智慧积累了丰富智能运维最佳实践经验。殷晋在总结过往时表示,AIOps作为IT运维发展的新阶段,需要根据金融机构的IT现状和技术成熟度,采用逐步推进、分阶段实施的方式进行落地,建议从基础运维到业务运维,最终实现智能运维。

第一阶段是数据为先,无论现有系统维稳还是业务创新,都需要完整数据作为基础。企业完成IT系统建设之后,需要构建面向全部系统和技术栈的统一监控和运维数据处理平台,将采集的IT数据、日志数据、网络数据等进行实时处理和分析。

第二个阶段变传统被动运维为主动运维。利用大数据、人工智能和数据可视化手段,通过IT与业务指标的融合,双向驱动IT管理。这个阶段,既要让业务部门能够看懂IT,又能让IT部门更加敏捷、主动的支撑业务发展。

最后是智能运维阶段,该阶段主要有两个重点:一是实时响应,当发生问题的时候,能够实时动态响应,迅速定位问题、解决问题;二是预测未来,结合DevOps、容器化等新一代技术,做到故障治愈,这是目前智能运维的最理想结果。

如今,基于AIOps的云智慧DOCP数字化运维中台已经陆续在银行、保险、证券、基金、制造、航空等多个行业的头部企业中得到大量应用和认可。

尽管AIOps在实际应用过程中面临着许多挑战,但是作为AI和大数据技术对传统运维产品和理念的颠覆,AIOps对标数字未来,能够更深层次的解决数字孪生世界中的运维管理难题,为IT管理和业务决策提供更明智的选择,并对业务发展进行洞察和预测。随着时间推移,相信AIOps时代终将到来。

项目推荐

A5创业网 版权所有

返回顶部