大家下午好,我是来自云智慧的王理想,今天主要给大家分享的主题是智能业务运维最佳的实践和做过的落地案例。

王理想

今天主要分三个方向做内容分享。第一介绍一下整个企业、整个大环境下做数据化时代的机遇与挑战。

首先看到一些数据统计,不管是单个应用的规模还是我们企业设备的规模、手机或者管理的网络设备的规模,在企业中它的规模是越来越大的,所以企业从原来的信息化到互联网化现在已经到了数字化的阶段,数字化的阶段是目前企业,不是说选择做还是不做,已经是唯一的出路了,我们要通过数字化的转型了解业务和IT之间的双向驱动关系,怎样才能促进我们业务能够和IT更紧密的关联起来。

要做这样的数据化转型肯定要引入新的IT技术,比如会引入AI这种人工智能的技术,或者要应用到大数据的技术、云计算的技术等等,这些技术应用它的时候会从四个方向考虑,怎样加速利用新的技术给用户带来的价值,这四个方向:1、用户,所有的业务最终都要接触到用户,怎样利用新的技术在数字化转型中更吸引用户或者能够获得更好的用户的转换率。2、我们会有物,物联网的设备,怎样感受物联网的设备,它的性能是怎样的。3、企业在各个领域中怎样影响或者塑造生态。4、怎样利用新的技术在数据化转型中能够保障IT系统稳定的运行。这样我们发现在做数字化转型的时候,IT和业务之间它的关联是非常深入的,可以说是一个双向驱动的,最终我们得到了一个结果,要实现数据化转型或者实现加速用户价值的交付的话,要把IT云业务进行融合,而不是简单的业务的合作,实现融合才能在数据化转型中体现好的结果、好的方向。

做融合我们其实会遇到三个比较大的机遇或者挑战:1、在基础架构上的运营能力,怎样能够在数据化转型中利用更多的技术、更先进的观念帮助基础架构进行整体或者统一的监控,能够帮助我们快速的发现问题、处理问题,在这个地方是我们遇到的机遇和挑战,如何提高IT基础架构的运营能力。

2、怎样了解或者改善用户体验,提升我们的运营能力,这一块也是通过利用新的技术,像大数据或者AI对用户端体验进行全面的端到端的管理和了解,也是我们在数据化时代所遇到的如何优化用户体验及业务运营能力的挑战。

3、怎样利用AI、大数据技术实现智能化的运营能力,这也是我们在这个时代中遇到的机遇与挑战。

结合这些机遇、挑战和背景,我们云智慧推出了智能业务运维的大的解决方案,解决方案,我们分为了5个层次,每个层次都是我们在做数据化转型的时候提供的技术的方案和思路,首先是在数据的接入层,怎样能够把我们企业这么大规模的数据、多样的数据进行采集,在数据接入的时候会做一些处理,接入这些数据之后利用大数据的怎样做数据管理,管理的时候可能遇到一些不同的技术,包括内存的存储做管理,大数据存储、聚合的数据存储做大数据管理。

再往上一层是做数据的分析,在数据分析层可能要引入算法、AI的技术、深度学习的技术、应用到上一层的应用模型,应用模型整体云智慧是针对每个企业的现状分为三个阶段:1、大数据运维;这个阶段一般在基础监控、网络健康、私有云、统一告警这里会利用大数据和AI的技术帮助我们做统一的大数据的运维管理平台。2、第二个阶段应用的模型主要是业务运维,在这里通过针对用户移动端的前端浏览器和支撑前端的应用后端、日志、加上你的业务帮你做业务和IT之间双向驱动的分析,帮助我们做业务的决策,第二阶段称为业务运维阶段的应用。3、智能运维。智能运维主要是利用AI的技术加上大数据的数据积累帮助我们做一些智能的分析,做一些预测的分析,帮助我们快速的定位一些问题还有未来业务发展的情况。这是我们在第四层应用模型层分3个阶段在各个企业进行落地的。最上层会有个可视化的展示层,主要是实现业务可视化的大屏与统一智能业务运维的门户,这样组成了智能业务运维解决方案整体逻辑的架构图。

我们主要用的是云智慧数字运营中央平台DOCP,这是我们整个平台最核心的价值点,它大概也是分为了5层次,也是通过微服务的架构、统一的访问加安全组成了架构图,我们看比较细的点,第一块把所有的业务IT数据采集回来,在DOCP的最底层是有Datahub的采集器,根据不同的业务模型采集相关的数据,在采集的时候针对采集器集群的监控、数据的校验,数据采集层有强大的能力,能够包含不管是结构化、半结构化、非结构化的数据都可以进行统一采集和管理。

采集完数据之后进入第二层数据存储,这里因为大量的数据主要用到的是kafka集群,会把整体的数据作为生产者、消费者,按照不同的模型和目标进行存储。上一层是数据处理,用到的还是大数据的存储,用到了spack、streaming这样技术,比如要做实时的数据输出可能会用到ES、如果要做长久的数据存储可能用到FDS,这样在数据处理的时候,根据做数据化转型的应用场景不同做这样的一些数据处理。

再上一层会做一些分析,这个分析主要是提供三大模块,业务模型设计与管理,怎样把模型和管理相关联。第二是可视化模型的管理,在这里怎么把,虽然拿了很多数据也做了存储和操作,怎么把它进行明朗或者简单的可视化管理展示出来,我们分析的时候会根据不同的场景利用相关的模型。最终在最上层会进行一些展现,这些展现会分为不同的应用模块,比如会输出一些实时可视化的大屏,或者输出一些报告,或者会通过平台输出一些通用的接口,再做一些其他的应用。还有这个平台也有支撑的权限管理和角色权限管理的模型,这样组成了整体DOCP大的平台。

第三部分,利用刚才介绍的DOCP的整体框架做了哪些落地的实践?做落地实践也是根据刚才介绍的三步走的策略,第一步做大数据运维,面向我们企业IT基于大数据技术建立一体化的监控平台及数据应用的体系,这样会在第一个阶段给一些企业提供大数据运维的解决方案。第二个阶段我们叫做业务运维,这里就是把业务视角和IT系统做双向的驱动,了解我们业务的现状状态和IT之间关系是如何的,怎么样持续提升业务的能力。第三个阶段是智能运维,智能运维是第三步,基于前两个步骤,不管是数据的积累还是平台的建设,才有了第三步利用大数据和人工智能技术帮助我们通过这样一些先进技术解决各个环节的效率问题,全面提升IT运维、业务运维的管理质量。

第一个落地的实践是我们在大数据运维阶段,在政企客户落地的实践,这里是我们帮政企客户做的“运维平台整体监控的可视化大屏”,这个项目整体的思路可以用四个数字代表3315,这个3是利用大数据的采集、管理和存储做数据运管的平台。另外1是要有统一的总视图,了解整体IT信息化的阶段情况。另外一个3是要有不同的视角,比如决策人、管理人、执行人,不同的视角能够看到整体业务系统的健康情况。最后5是5个维度,比如第一个维度是了解整体的状态,包括在全省有一个组的数据中心两个灾备,同时在分支机构有很多其他的数据中心,要首先能够统一的了解分布在各个地域下所有分支机构它的健康度、应用的存活程度是怎样的,要做一个展示。左侧是把和它相关的不管是资源、带宽还是IT基础的设备、告警、使用量等等都会做一个总视图里面让我们了解整体应用性能的状态,通过总视图能够了解到IT系统整体的变化。

紧接着会再输出数据中心的实时监控大屏,这里主要强调的是主要的数据中心之间它网络连通性的状态是怎样的,一主两备还有各个分支机构它的网络到数据中心之间网络连通性怎么样,同时会把比较关心的主数据中心、容灾中心、他们自己本身的流量、安全的拦截数、访问数等等,会把这些底层数据做一个大数据的采集之后,然后做可视化的展示。同时我们要关心各个分支机构整体的网络或者数据中心的状态,会把数据中心整体的流量、访问量、它出现的问题做趋势的展示。

我们了解数据中心上跑的应用的状态,这里包含整个云平台到底跑了多少应用,整体应用它的健康程度的占比情况怎么样,应用它的点击访问量的趋势变化、系统部门的活跃程度、出现问题的统计,这样就从最底层的、基础的、网络的上升到了解应用层面健康度是怎么样的,再往底下是它的网络,这个网络会根据客户不同的网络情况分为不同的网络状态展示,比如有城域网的状态,很多小的点是各个分支机构下一些更小的机构到每个城中心之间的网络状态。右侧是把网络整体使用率状态、带宽、承载率等等进行汇总的展现。

安全代时的感知,帮它把所有安全上的问题做大数据的采集,去了解它整个数据中心在安全方向整体存在哪些问题,整体问题的态势是怎样进行趋势变化的,具体问题描述是什么都会在可视化的大屏中进行展示。

落地实践的案例和最终交付给客户的可视化的内容,实际上我们在做这些内容之前是给他们做了很多分层式指标的体系,包括在安全方向会和客户根据它的业务场景定义他每个指标的内容怎样规定安全的评分、拦截率多少是正常的,会根据这个构建多维度的指标体系,包括安全方向的、大服务上的、数据中心、数据中心运算的速度、虚拟化转换率等等。还有大社区,不同的业务下它指标的变化怎么样才叫合理或者怎么样才是优秀,会给客户做指标体系的定义。还有自己大数据指标的维度定义、网络层面、运维的层面,要了解运维KPI,定义怎么样的指标才是符合他们整体的指标体系。还包括其他一些大的协同指标,这是我们在大数据运维第一个阶段,在政企客户落地的实践。其实总结下来,我们说主要从它的IT基础设施出发,帮助他做数据中心网络还有上边跑应用的统一的运维管控的平台。

第二个是在业务运维这个领域做了金融客户落地的实践,这里我们叫做业务健康与IT运行状态实时监控的可视化的输出,可以看到这里融入了很多业务的指标,客户的业务指标包括它的用户数、交易数、关键指标的变化趋势,支撑这些业务的是有相关的系统,每个系统的健康度是怎样的,会通过采集大量的数据,各个指标,通过利用大数据和AI的算法帮它智能的算出来整体业务健康的评分。支撑业务的底下是有很多业务系统,每个业务系统再根据监控得到的指标,根据一定的算法输出它最终展示的状态,是不是正常、是不是有问题。

支撑这些业务系统再到底层的是它的资源,这些资源包括主机、网络设备、应用,这些底层资源总体健康都怎么样也可以进行统一的展示,从客户各个业务之间都进行了统一采集,从用户体验层面,不管是APP还是访问的健康度还是网络的连通性,再结合告警消息的汇总,业务健康与IT运行状态实时监控大屏,包括客户把所有业务和IT状态进行了统一的展现,只要中间发现交易量有下降或者有异常的变化,可以一目了然的看到支持这个交易量外部的用户体验、网络和业务、系统、资源、整体的健康度怎么样,这样就实现业务与IT之间双向的驱动,可以快速的了解业务的健康度,同时能够快速的了解和业务相关联的各个系统、各个网络、各个用户体验的状态。

在业务运维领域,我们也在航空客户上有相关的落地实践,我们给航空客户做了业务应监控分析的平台,这里主要是采了航空的日志、平台、系统的很多数据,通过这些大量数据的采集、清洗、存储之后,最终输出和它业务相关的指标,包括航空平台的收入情况、航班信息、油量、其他的指标。这里主要是体现了我们在业务运维里面大数据处理能力,我们每天差不多采集它几TB数据的量,分析之后得到的结果。

我们业务运维也在支付行业的客户也有落地的实际案例,这里就是展现了支付行业所关心的不同的国际卡、快捷支付、权利交易、日常指标等等这些指标怎么进行变化的,我们会利用大数据化AI的算法进行评分,它的占比情况怎么样,同时支撑业务的业务健康怎么样,会进行及时的展现。这里通过运营监控可视化,让他一目了然知道整体的状态和哪里出现问题了。再出现问题之后要深入的追踪这些问题,我们平台也有深入追踪的功能,比如我们要做业务交易调用链的详细追踪,帮助我们了解业务的调用关系,从通道系统、核心系统到个人门户,怎样进行多应用之间的关联调用,怎样进行数据库的操作都可以进行详细的记录。然后针对关键事物可以了解它整体单个请求的响应时间,和单个请求之间是怎么样调用的,当时调用的UI地址是多少,用了多长时间,再往底下每个代码的对阵用了多长时间、每个方法用了多长时间都有详细的追踪。我们在这个客户的落地实践都是实现了从它最全的可视化的总览图可以深入的分析细节化的问题,最终能把问题定位到代码层级,了解每个方法,每个语句的性能状态。

第三个阶段我们也有一些落地的客户,比如智能运维在制药客户有智能告警的落地,这里可以看右侧的简介,我们真实的客户,它每个月产生的告警条数在六万条以上,平均告警风暴在每分钟800条,这时候他们的运维是比较痛苦的,每天收到告警是麻木状态,收到告警也不认为有问题,最终有问题也会忽略掉,应用到智能运维平台之后,我们把海量的信息压缩合并,最终把告警消息压缩到9%左右,减少了91%的无用告警,差不多最后每个月的发送量只有一万条左右,这就实现了我们帮它进行智能告警的压缩。同时我们除了做压缩合并之外还帮它做关联,帮助他们把一个事物所有相关联的,从它的客户端到应用、服务器、硬件、之间是怎样的的调用关系做一个整体展现,如果出现问题之后同时看我们的关联分析图可以快速定位到是哪个节点出现问题,降低了故障恢复的时间,差不多20分钟左右,提升了KPI的考核。右侧是当时我们做的截图,在这里可以看到具体的告警事件的列表。

在航空客户做的智能异常检测,这里更多是利用了大量的数据积累和AI的算法,我们相当于把客户超过每小时将近7TB数据的采集量,基于它之前的历史数据,拿到数据之后做机器学习,学习它业务变化的情况,然后会帮它预测到,预测到红点的部分是预测到那一时刻会出现一些异常点,同时帮它预测未来业务趋势图是怎样的,这里也是通过智能异常检测的解决方案帮助客户进行相关的落地的。

地产客户的落地实践,帮助他们做智能故障根因分析,为什么做这个事情,看左侧两个图,我们理论上看到一个模块A和模块B是相互调用的关系,实际上模块A、B可能还共享着机器的资源,同时有可能共享着一个网络设备的资源,所以影响A和B之间的调用,不是我们想的A和B自己本身,其实和它相关联有很多其他的节点,只要一个节点出现问题,整个业务都是受到故障的,这样的信息在传统信息化过程中很难定因,这样我们云智慧的解决方案就会把所有相关联的数据进行采集,根据我们的规则算法应用最终生成智能故障根因的TOP图,把整个关系包含应用端、应用端、DB、服务器、交换机等等,都会在一个图里面把一个业务进行展示,只要中间哪个点出现问题会有不同的颜色进行展示,出现问题之后可以快速的知道引起问题的根因在哪里。右侧会把具体根因状态或者故障信息进行罗列,大大缩减了之前传统故障根因定位消耗的时间。

我们也会和一些互联网的客户,比如电商客户做智能运维的落地实践,这里是抓了相当于4大块业务和性能的数据,比如用户体验,用户体验指数是通过它的响应时间等等算出来的值,还有整体销售的额度、转化率、跳出率。这些指标都会有现在的标准值,同时这些指标可以进行一些设置,把我的用户体验提升到0.06,销售额会增加145万,整体转化率会增加3.7%,是通过对历史数据的学习、大量数据的采集之后,让你进行业务与性能问题量化关联的分析,实现未来业务的预测和运营的分析,这是在帮互联网客户做的事情。

总结下来,刚才说的三个阶段,大数据运维阶段主要做基础资源基础设施的监控和问题发现。业务运维主要是利用大数据对用户体验和IT做整体双向驱动,了解业务和用户体验的状态。智能运维是通过大数据和人工智能帮助我们更加有效的了解企业的运营能力或者帮我们做预测,这大概是我们方案简单的总结。

我们的智能运维落地整体的价值核心是赋能企业做数字化转型,大概包括6个点,持续优化用户体验、保障业务连续性、帮助我们实现业务与IT之间双向驱动、同时提升IT整体运行的效能、帮助我们把传统运维做数字化的KPI、实现智能化运营和业务的预测。总结下来我们会立足于现实、逐步推进、稳扎稳打、提升效能、驱动企业业务的发展。

这是我今天给大家分享的内容,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-10-31 14:47:04
市场情报 从营到赢,世纪互联蓝云合作伙伴云赢峰会2023圆满召开
具体来看,这些增值价值主要体现在两个方面,一是商务模式创新,另一方面,是服务能力开放。 <详情>
2023-08-29 08:49:05
运营商 中国联通发布《可信算力交易服务白皮书》
8月18日,中国联通举办“大模型时代下的AI算力新基建”分论坛,与合作伙伴一起,共同探讨中国算力产业发展趋势和未来。 <详情>
2023-07-20 17:25:54
云资讯 2023可信云大会·云原生技术与实践分论坛开幕在即
历经多年发展,云原生技术生态已趋于完善,行业接纳度攀升,发展进入深水期。 <详情>
2023-07-20 17:18:00
云资讯 2023可信云大会“一云多芯应用创新”分论坛先睹为快!
一云多芯技术的应用推动了IT产业链的创新发展,激发了新的商机和合作机会。 <详情>
2023-07-20 15:08:31
云资讯 2023可信云大会 “云安全和零信任”分论坛抢“鲜”看!
可信云大会“云安全与零信任”分论坛将在7月26日下午举办 <详情>