本篇接《风险感知(一)》,将采用数字化运维场景设计方法梳理风险感知场景的一些思路。分析前,先回顾一下场景设计的一些要点:
再看看风险感知场景的要点:
以下从“人、事、时间、协同、环境”5要素看看场景。
1.人
通常会有几个角色:
这些角色,从场景的设计上,关注度自下而上递增。比如,对于最重要的一线运维专家,可以考虑从以下问题切入梳理:
基于上述问题如果梳理清楚,一个面向一线运维专家的风险评估场景的基本需求分析就形成了,同理其他角色的梳理。
2.事
运行风险感知分析建立在一个集合,并不断递归分解的分析主题而成,可以将每一个主题的实施内容理解为具体的事。不同主题的事,在一定程度上具备相似的组件,比如基于一个底层运维数据平台,往上指标体系、指标异常检测、指标编排、任务管理、识别风险后的闭环流程等基本功能。但同时也要认识到,上层不同主题的事很难通用化,极可能是需要定制化构建,比如:
3.时间
场景来源于电影。在视频领域,通常按每秒25张或30张图片组合成一个视频画面,对一段时间的视频画面进行剪辑形成一个场景,多个场景组合成为一部电影。时间对于场景的设计十分重要,通常包括时刻、阶段性、实时三种。时刻是某个特定时点,将基于一个快照数据进行分析;阶段性是针对某个开始到结束的时段进行分析;实时是针对即时、在线的感知,与监控相比,风险分析关注面,监控关注点。
时间与前面的事要素一一对应,以“某新建系统上线后试运行分析”主题的“事”为例,时间包括:新系统上线试运行期间,每天盘后分析;新系统上线后每周最后一个工作日。试运行分析非实时的感知异常,所以上述两个时点属于阶段性的分析。在场景设计上,可以考虑建立一个新建系统上线后试运行分析的主题,并为负责人分派特定时间完成的分析任务,在任务中提供风险指标及异常检测数据,人可以提出相应的专家分析意见。
4.协同
协同要考虑建立常态化的运行风险评估的工作机制,在工作机制下确保场景下多个角色能够顺畅的协作,场景目标能够有效的落地。比如在阶段性评估主题中的风险处置任务,涉及任务的分派,任务的处理时效性管理及任务的跟踪等。在实施上,协同关注人、事、机器的在线协同,可以利用流程、ChatOps、数据指标、任务管理、异常统一告警等作为多维度的连接手段,建立数字化的风险感知协同机制。
5.环境
环境包括显性环境与隐性环境。显性环境包括线下协同与线上工具,比如运行风险评估的环境主要以线上为主,评估涉及的数据生产基于运维数据平台,指标及任务的管理基础风险评估任务管理,评估分析过程基于评估场景,评估涉及的风险或问题采用在线的问题或任务管理,并利用ChatOps等手段进行触达连接。隐性环境重点指风险感知评估配套的工作流程机制,流程机制是为了场景设计能够有效落地提供的约束与保障,是为了明确场景协同人员的责权利。流程机制又包括存量的ECC管理办法、监控管理办法等配套的规范或管理要求,以及新增主题涉及的协同机制,比如前面提到新系统上线评估的例子,可以建立新系统上线试运行的工作要求。