我是来自太平洋保险集团的信息技术中心的陆小彦,接下来我跟大家分享一下太平洋在运维领域人工智能方面实践应用的情况。
主要介绍4个方面的内容:运维痛点、需求是怎么诞生的、技术实现、目前的应用成效。
大家应该都清楚一项新技术的实践来自于我们工作当中遇到了一些瓶颈或者痛点,保险也不例外,来看一些数据,这是我们在2017年运维数据的参考,一年监控告警有几十万单,这些监控告警中靠人工关联的将近耗费近十多个人员,告警数量非常大,我们的人工关联是7×24小时三班倒的,人工关联的效率是比较低的,准确率也是比较低的,这个告警工单处理的慢,我们解决故障的时效也到达了一个瓶颈,去年的时效是2%,2018年的绩效可能就达不到多少了。
去年一年的业务活动的情况,重大的业务活动去年近百起,这还不包括比较小的业务活动,比2016年上升了70%,对于金融公司来说,日常的营销活动是非常重要的,是公司收营必须要经过的重心,但是活动的保障需求量非常大,我们基本上IT都是靠SOP来解决,接到一个需求任务之后,看一下SOP手册应该做哪些检测、哪些部署,对历史的运行数据没有好的经验。再看一下我们的工单量,工单量来自9个子公司,接近100个分支公司柜面人员日常的报单,到达了百万级,比2016年上升了33%,二线处理人员在17年人均处理的指标上都是成倍的增长,大家可以看一下人均工单处理量、人均维护系统数、人均维护节点数都是非常非常多,对我们来说工作负荷非常大,专业人才一年年的流失,我们的知识也没有得到重建。可想而知,我们内部用户满意度会下降,间接影响到我们的外部用户。
基于这些痛点,我们肯定想有没有新的技术可以应用到这上面?是否可以引入人工智能?因为近几年太保已经把自动化运维平台建造的比较完善了,接下来我们考虑是否引入人工智能。
我有句话跟大家分享一下“没有应用场景的AI不是真的AI,只是算法”。范本只有落地到应用场景之后才能达到效果。给大家分享一下我们需求是怎么诞生的,需求诞生分主动和被动两个方式,先说一下被动。
被动的主要是日常故障的处理之后、业务活动的保障之后会定期做一些复盘,这些复盘动作会出现一些我们需要解决的问题项,这是我们需求的来源。
再介绍一下主动,主动分两部分:首先我们会走出去请进来,走出去和同行业的朋友还有供应商、厂商做一些交流,看看大家现在在做什么。拿回来学习一下。主动的第二部分是我们自己内部的应用团队,大家坐下来头脑风暴,看一下我们有哪些需求可以诞生出来。
这是需求诞生的经过,但是需求讨论完之后不落地到实处就是虚的,所以我们引入了建原型法,每落地到一个需求场景都会建原型出来,初步建原型之后再回到探讨讨论过程当中去,使它成为最终的建原型成果。
今天给大家分享三个需求场景:1、告警收敛;告警收敛主要针对前面痛点中的告警工单做汇聚合并和主源分析。2、趋势预测,主要针对业务的预知,未来趋势发展的预知和容量管理部分,这两个需求是目前太保与华为合作的项目,项目的产品叫云脑,谐音就是运脑。3、点点2.0,这里插一句点点是什么?点点是太保在2015年诞生的运维服务机器人,2.0是1.0的升级版,我们在2.0当中新增了风险检测和智能交互的需求。
接下来我介绍一下三个需求的情况。
告警收敛,大家可以看到在界面的右边是当时设计的原型,需求考虑的结果,上方是工单收敛的交付截面,下方是我们跟踪分析必须照顾到的主因,右边是最终交付的看,在TOP图架构中会生成收敛预和收敛结果的展示,再下一层会展示分析的归因,下面是实时告警工单的情况。
接下来是趋势预测,在最开始建原型交付的时候,上方是日常业务出单趋势的情况,实现部分是已经发生过的实际交付业务量,虚线部分是期望能够预测出的交付图,对应点上的柱状图是服务器或者容量指标的预警。下图是软硬件周期趋势管理的原型图,最终我们的趋势预测也是交付为看板模式,在图上可以看到有7个指标,分别来自于财寿险、保单、理赔和话务沟通量。
介绍一下点点2.0,内容非常多,先说一下安全防控圈,就是风险检测,风险检测是对数据处理做一个实时的检查,在场景式交互上,目前点点是放在用户操作几百个应用系统的场景中作为一个浮窗或者插件的形式存在,一旦操作人员操作系统的时候发现问题、遇到困难,可以通过唤醒点点做一个帮助自助解决问题的过程,这个自助解决包括一键截图、图片文字识别、解决方案的反馈,如果用户还没有解决,还可以点下一步自动提交工单。提交完工单到二线运维人员处理之后,就会有处理人员接手会推荐历史上同类案件的解决过程,同时也会推送知识库,目前有的最接近的解决方案给运维人员。2.0除了在PC端系统有应用以外现在在移动端也有应用,大家看到的图是目前营销人员使用的APP,右边是设计的原型,左边是已经交付上线的系统功能。
目前给大家介绍的三个需求。在实施这三个需求项目的过程中,我们同时建立了一个研究路径的闭环,这也是整个团队的结果。这里介绍一下研究闭环的应用架构,中间左边部分是离线训练的模型集群,这里面包含CPU和GPU,离线训练模型主要包含数据的抽取、数据的预处理、模型的训练、模型的可视化、模型的验证及发布。正式模型由离线训练模型发布给应用集群,应用集群相当于大家熟知的生产集群,生产集群同样部署了高一个级别的CPU和GPU,生产集群向上提供接口与外部系统,外部系统生产其他应用系统做接口,这个生产应用系统,如告警工单就是自动化运维云平台,比如点点系统。向下一个管理平台,这个管理平台相当于大家常知的知识库,但是它比知识库更多一点,还包含效果标签、识别规则等信息都在知识库里面做管理。
训练模型,训练集群里面训练的架构全览,每天的告警工单、业务数据、会以图片文字的形式进入正式模型,会打一次机器标注,机器标注的结果与专家一审做对比,如果有差异的会进入人工标注的二审,最终结果以人工标注的二审为交付,交付结果进入右下的训练模型,训练模型训练之后会生成正式的发行发布到生产,这就是每日循环的过程。大家也知道,模型其实需要很大数据量来训练才能达到一定准确率,还需要更多标注数据提高准确率,它的每日训练相当于不断的做,可以24小时在训练。
接下来介绍一下三个需求目前技术应用的情况。告警收敛目前主要使用的是神经网络算法LSTM包括决策树及随即森林还有一些关联项挖掘,在告警收敛里面是创建了多个模型,包括分类模型、信息的提取模型、收敛模型、溯源的模型,数据进来之后通过这几个模型之后才能渗透出来,同时算法还没有用,目前我们公司是大家比较熟知的CMDB,CMDB要提供纵向TOP结构和横向的应用链路,这两部分也是不可缺少的,要组合起来做识别
趋势预测,这个尝试的是Xgboost,它是预测模型当中比较好的一个,我们觉得趋势预测在算法之外比较重要的是特征的选择,大家听到前面说的,出单量、理赔量、话务呼出/入量,在不同的指标上特征的选择是不一样的,有一些共用的指标,比如时间、节假日就是共有的指标,但是一些特殊的特征只有这个指标才有,比如寿险有行业政策、业务部门日常业务活动的要求,都必须作为特征项加入。
接下来介绍一下点点2.0,跟大家描述一下点点2.0是怎么开始做的,最开始做的时候,取了大概2000条工单的数据,先建一个模型做一个聚类模型,自动分成多少类,然后再请日常处理工单的专家进行分类和修正标注,再建立出一个分类模型,每天新进来的工单资料就会通过分类模型进来,以及前面介绍的训练的整个架构作为一个循环的模型更新。
安全防控圈以SQL为例跟大家介绍一下,我们一开始取了一部分正确的数据处理的SQL和部分错误的数据处理的SQL,我们开始的时候提取了19个特征,现在已经比较多了,最后的结果我们发觉仅靠算法是不行的,必须把SQL语法的分析器加进来结合起来使用。
前面介绍的这些日常的功能当中都提供了纠错功能,这个功能是在机器学习的应用当中比较重要的,包括SQL日常的校验、点点2.0都提供了纠错,用户在使用当中发现有什么问题可以马上进行标注。
最后跟大家分享一下我们目前的研究成果,告警工单收敛是70%,正确率是由应用维护负责人进行测评,准确率是比较高的,在90%。业务趋势有一个评测指标叫预测误差值,预测误差值主要是它的误差值的量与它提供的业务量的占比,现在误差在30%。我们相信以后在加入更多特征项之后,这个误差会进一步的降低。点点2.0交互识别准确率在50%,我们以期待更多数据进来之后以提高准确率。高风险识别率是比较高的,在99%以上,而且高风险已经嵌入到公司IT云平台流程当中,所有有SQL处理的或者有SQL识别的都会与这个模型有一个接口做识别。
前面是各个需求项的应用成效,综合看一下,如果我们在这方面应用的比较好,高风险数据处理风险为零,违纪违规操作风险零,对于风险控制来说安全生产永远是第一位的,告警工单的风险,去掉违规,解约超过7年的能力,告警工单收敛的好,预计可以提高时效22%。趋势预测对未来保障业务活动的成功是非常有利的,可以提前做好容量的管理。点点机器人自助解决预期在25%的解决情况,这25%就能帮公司节约掉运维处理人力超过60人年,这些都是看得见的指标,那些看不见的指标就不可预估了,就是对运维部门来说自己完成、自助培训的,我们的用户体验比较高,渐渐的外部客户的体验也会越来越高。
最后分享一下我们运维的四个组成部分:1、建原型,所有的场景大家都必须落地到建原型。2、算法,算法在不断进化当中,一开始的算法是特征建模还有监督学习,就是标注,以后可能会进化到无监督学习或者自动标注,再往后可能是统计、推理、判别,到这个程度。3、数据基础,这个应用场景大家必须要有数据,我们在推行点点2.0的时候发现,原来工单里面的图片是非常零乱的,用户截图是非常随意的,所以我们在点点2.0加了一键截图,规范用户的行为,保证交付的数量。知识库每个公司都有,我们这么多年已经有三版知识库了,相信未来会向知识图谱演化,两边都是实体,中间是个关系,如果形成关系网,与算法结合之后推送出来的结果会更加高。4、必须要有交付物,这个交付物可以是看板、模型、引擎、接口、还可以是RPA,但是必须有个交付实施接口,这4部分组成才能保证人工智能落地。
因为人工智能现在很火,但是我们希望不是去蹭热度让它很火,而是真正的能解决我们生产工作当中的问题。盖特纳说“人工智能时代已经来了,大家都不是局外人”,大家可以思考一下自己在这个时代中处在什么位置。以上就是我的分享,感谢!