说明: itsm帮助IT运维/运营组织对生产运营管理、IT服务能力建设、资源配置进行更高效的管理,在运维/运营工具体系的业务目标中承担统一的IT服务管理平台角色,在整合目标中为其它工具平台提供流程服务的数据。itsm在业内主要以ITIL为理念进行建设,大部份成功案例采用业内成熟商业产品的方式建设,本篇主要是从使用者角度先对行业的领先者servicenow的一些功能设计进行调研,再从功能设计角度整理itsm的一些建设思路。 |
---|
第1章 servicenow概况
几年前,在gartner的魔力象限中看到过servicenow这个名字,由于身处金融行业,对saas偏保守的态度,并没有太多关注。今天,servicenow是全球itsm领域领先的独角兽企业,提供saas的解决方案,是全球三大saas公司之一, 作为对itom的发展持续保持关注的从业者,很值得我对servicenow进行一些分析。所以,借着前期与servicenow公司一次交流机会,以下汇集一些非严谨的研究内容。
注:以下对于servicenow的一些研究意见仅为个人判断,不一定正确。
1.1 servicenow整体情况
开篇前,先看看最新的servicenow的市值数据,对他的体量有个直观的感受(300亿美金略高于京东的一半市值):
servicenow在世界范围内多个地区设立了分支机构,在中国大陆最近的两个分支机构是中国香港和新加坡(同时设立了数据中心),代理商基本上都为中国香港公司,中国大陆的客户主要是跨国外企在中国的分公司。从gartner的分析数据可以看到servicenow产品目前的位置:
servicenow的产品以itsm为核心,产品的功能结合了saas的特点,以简化工作、提高效率、控制风险思路,在设计上结合了日常功能所涉及的人、流程、自动化工具等方面的工作,加上itsm最佳实践,进行了全面的整合,引领客户的IT管理可持续发展。
对于产品功能的本身,有几个突出的优点:
serviceNow在国外saas领域的itsm属于绝对领先位置,从我的了解看,在国内目前仍属于起步阶段,可能有以下原因:
- 响应速度,最近的数据中心在中国香港和新加坡,有对通过互联网访问方式访问速度慢的担忧。
- 数据安全,系统数据需要保存在中国大陆以外的数据中心。
1.2 servicenow是做什么的
servicenow公司以itsm为基础,并扩展到itom、itpm、信息安全等产品,从我个人理解,itsm以外的产品并非顶级,但强在能提供一整套从运维、运营管理的整体解决方案。为了更好的理解servicenow,可以尝试将他作一个对标:
从官网的介绍资料看,大致有以下的能力:
1.3 研究servicenow的意义
关注servicenow的人当中,有些人是因为servicenow市值高,想了解一下一家以itsm为核心的新兴企业服务公司是如何反超传统big4,他是如何形成一个生态,如何保持功能、解决方案的不断有序的扩展;也有些人是因为对saas应用的看多或看空的站队心态去研究,研究saas化带来的优势,它的itsm、itom、itpm是开展;也有些人是从itsm的产品功能设计角度去研究它,看看它与传统itsm有什么区别,企业的itsm应该如何建设才能具备高扩展性。作为甲方使用者,我重点以第三种视角对servicenow的itsm进一些偏功设计角度的调研,主要感受有三点:
本篇的内容主要是从第2点的产品功能设计角度进行扩展,其中第2章主要是看看servicenow如何设计大家关注的几个IT服务,相关的图片使用servicenow测试用户试用截录,第3章则是我对itsm建设的一些零散认识的整理汇总。
第2章 从运维主要的IT服务能力看看servicenow的设计
itil V3中定义了26流程,本章主要从服务目录、事件、问题、变更等7个主要的服务能力进行分析。
2.1 服务目录
“你觉得运维人员的工作范围是哪些?”
“我觉得所有和‘电’有关的事就是运维人员办的事”
很多业务人员对运维团队的认识就是上面所说的和‘电’有关的工作,这尤其体现在一线业务运维人员的常规工作当中,我们除了要处理各种计算机、网络设备、服务器和一些应用的故障外,当用户最到复印机故障、电话通讯故障、传真机故障、饮水机坏了等也向运维求救。我们先不讨论如何为业务人员提供更好的服务,因为做对的事情通常比把事情做好更重要,它需要运维组织依据自身资源配置情况提前定义好服务目录,即“我能提供哪些服务”,有了服务目录能聚集资源将这些服务做得更好,能为企业提供有保障、有承诺的IT服务能力。在实际的itsm服务目录建设过程中,可能会关注以下几点:
1)具备完整且支持快速调整的服务目标
2)可灵活定制的工作台
3)流程自动化、可追溯
针对上面几块内容,servicenow提供了这样一个更接近一个小白消费者的服务目录,相关服务目录和统一的IT服务台做了一些整合,以下摘录几点:
下面这种透明的服务处理反馈信息的设计特别的棒:
2.2 事件管理
“运维不怕故障,就怕故障处理不及时、不够快,或重复故障。”
当IT系统出现紧急故障时,需要运维第一时候解决问题,恢复系统的正常,所以事件管理的宗旨是最短时候恢复故障,从而将故障的损失降到最低,在此前提下尽可能满足服务的要求。因此,事件管理突出的就是恢复企业的业务,启用备份,容灾系统等手段,第一时间采取各种措施来恢复企业生产,这就要求服务台将紧急故障定义为最高优化级,从而确保工单的快速流转,通过各IT部门密切配合来排除故障。需要考虑事前、事后、事中处理,以事件管理的故障处理为例需要考虑的因素包括事件登记、影响判断分析、问题定位、故障恢复、故障协同、故障经验汇总、事后统计等过程。
将上面的事件管理思路进行归纳:“制定各项保障措施,尽早发现潜在问题,协同高效的完成事件恢复,保证服务质量与可用性水平,并对事件管理进行举一反三的持续优化。”,在itsm中可以为事件管理提供以下能力:
同样看看servicenow的几个解决思路:
2.3 问题管理
“这是重复事件,事件根源解决方案己提交XX处理”
“然后呢?什么时候能解决,现在谁在跟进,有什么困难?”
“……”
问题管理与事件管理的区别在于,事件管理目的在于恢复服务,而问题管理在于找出IT事件的根本原因,制定并跟进解决方案,防止类似故障的再次发生。其流程是创建问题,相关负责人对问题进行评估,然后提交解决方案,并有渠道提供问题解决的跟进。问题管理能够找出故障的根本原因,举一反三,减少重复性问题导致的生产事件或故障。问题管理的生成可以是从事件管理流程引出,也可以根据一些风险、头脑风暴等方式引出,需要在其它流程,包括事件管理流程、服务台等功能中快速生成问题。
在问题管理的整个环节中,最大的挑战是问题的解决,所以在IT服务管理的功能设计上需要关联变更流程、经验库来关联问题解决方案的流程,关联服务台由服务台推动问题流程的跟进与上升协调,关联风险流程来实现问题的升级。
同样来看看servicenow的问题管理的设计,主要是从问题解决方面的整合,包括监控性能数据、事件数据、知识库的整合辅助问题分析:
2.4 变更管理
“大佬都在提倡devops,还需要变更管理吗?”
讲变更管理时,肯定会有人觉得ITIL的变更管理与devops的理念冲突,其实变更管理的目标是更安全、更快的交付,这与devops并没有冲突。更安全是指需要规范变更的方法和步骤,消除或降低变更风险,减少变更对业务运营的影响,保障公司各项业务及服务的顺利进行,这方面的关注点恰是devops比较少提到的内容;更快是结合devops的思路通过自动化手段提高变更管理的成本,比如关联应用变更部署工具提高应用变更部署效率,增加CAB的评审会议工具及流程提高CAB变更评审的落地等等。这里提几个关注点:
以下是servicenow的变更管理的设计的几个亮点:
2.5 服务台
规模化的企业通常有IT运维部门,他的职责是服务于业务部门,保障企业网络的正常运转,在ITIL定义中与业务部门的关键环节是服务台,服务台一般都具有三个特点:作为运维部门和业务部门的单一连接点,跟踪用户提出的IT请求到解决为止;提供支持服务,主要包括记录所有IT请求,设定优先级,合理安排IT部门处理请求日程,同时向用户提供服务关注、反馈记录跟踪等功能;服务台可以显著降低IT管理成本,将企业的IT系统应用及管理流程化、规范化,将大大节省企业的人力、物力等成本。成熟的服务台具备一种低门槛,傻瓜式的服务获取、消费交互能力,响应快,反馈透明等特点,可以有几个关注点:
servicenow的服务在上面己提到,这里不重复摘录。
2.6 知识管理
“一个团队最终能留下来的是什么?硬件?软件?人?”
知识的积累,管理、技术、业务等多维度的知识积累。
知识的积累比较广,这里提到的知识主要是一些常规零散问题的知识管理。以往,这类零散的知识主要是面向一线运维人员日常工作的经验落地,具体有己记录的故障、应急解决方案、常用的功能性问题的解决方案。如果将知识建立一个面向全公司人员,那么在知识的选择上可以将范围进一步扩大,知识的丰富最好是全员参加,需要鼓励全员去丰富。几个关注点:
以下是servicenow的知识管理的设计的几个亮点:
2.7 报表管理
大部份工作都可以遵循PDCA的持续优化的思路开展,当前很多ITOM的工具建设往往聚焦到了中间的执行环节,对于事后这个环节关注度低,以我的经验看,基于事后统计分析是投入产出比很高的一个环节,尤其是ITSM这类涉及流程、管理机制、组织人员是一个持续优化的过程,一些简单聚类规则便可以快速提升对IT服务运转的全面管控,不仅有更好的体验,还能辅助优化决策。
以下是servicenow的报表管理的设计的几个亮点:
第3章 聊聊ITSM的建设
3.1 建设思路
在ITSM的建设过程中,主要有流程审批与IT服务统一管理两种建设思路,两者大概如下:
IT服务统一管理平台的思路更具扩展性,支持运维流程及规范的不断优化,以及服务效率与质量的不断提高。在实施过程中,鉴于实施的可行性,可以考虑制定短期内优先建设流程审批的平台,实现运维组织的规范化、标准化,接下来将运维场景与IT服务整合为场景,通过CMDB整合自动化工具,提高服务质量与效率,最终实现IT服务统一管理。
3.2 难点与解决方案
1)难点
行业里的服务平台落地会有一些痛点,比如:
2)解决思路
针对上节提到的落地难点,在服务平台的设施过程中需要注意几个思路:
IT服务平台是基于ITIL运维方法论,结合运维组织的管理流程规范,设计一个技术平台,它提供ITIL中的运维服务台、事件管理、问题管理、变更(发布)管理、配置管理、知识管理等标准流程功能,也提供运维组织特有的值班管理、巡检管理、供应商管理、督办事项管理、机房管理、需求管理、项目管理等运维管理扩展功能。服务平台的引入将打破原来依赖口口相传、人员纪律性为基础的工作方式,短期内会给组织内的人员带来困扰,甚至会有排斥行为,为了提高服务平台落地效率,在服务平台的建设过程中需要注重将流程规范的理念推广到运维组织,比如通过培训、沙盘演练、鼓励组织内参与ITIL认证等方式。
实施IT服务管理思维需要从流程标准化、建立统一高效的服务台,同时在场景的建设中回归不断优化运维组织能力的本质作为建设思路。
IT服务平台在工具体系中一方面要承担流程的落地,另一方面需要具备整合联动监控平台、操作平台、信息安全平台、资源管理平台、运维数据平台的使用控制角色,并整合用户管理系统、邮件短信系统、OA 系统等第三方系统,为IT 运维服务管理提供量化数据。
可控性、可扩展性、可维护性是从技术角度进行分析。架构的可控性,主要从易用性、流程及视图可自主编排,实现运维流程调整的快速响应,自主可控;架构的可扩展性是指针对性能问题,架构应支持横向分布式扩展能力;架构的可维护性是,系统架构需要在足够的安全性设计,同时适应多种操作系统等适应能力。
3.3 工具体系中的建设重点
IT服务平台的建设过程实际上是运维组织工作流程标准化的过程,运维组织应该充分利用好这个契机,对运维组织的规范、日常操作流程、监管要求结合ITIL的流程与服务理念相结合,形成标准化并落地。另外,如果采用外购服务平台的方式,还可以借鉴同业在流程理念上的经验,完善运维组织自身的流程。
为了让服务管理平台更加高效的整合管理规范、流程,提供更高效的IT服务,平台需符合扩展性强(性能、功能、流程、角色、与其它工具间的接口整合等)、技术可控(提供了灵活的流程和表单设计工具,可配置、可渲染、代码可控)的特性。帮助运维组织根据自身特点定制流程,改变错综无序的IT服务现状,提高IT团队的生产效率,改善终端用户的满意度。
IT服务台作为企业内部IT服务支持的窗口,结合服务目录,统一规范管理并同时处理大量的IT请求,提供包括问题咨询、用户变更请求、服务级别管理、配置管理、可用性管理,避免了因找不到特定技术人员而耽误时间,从而降低运营成本。一方面建立服务台IT服务支持的人员能力、考核、协同机制的优化机制;另一方面通过知识库,以及其它自动化工具提高服务的高效,高质,并提供更透明的反馈机制。
在IT服务平台的场景的建设过程中,需要考虑的不仅仅是流程的标准化管控,还要回归运维的本质,比如故障管理流程场景的建设过程中可以整合故障处理工具的整合,以提高故障处理效率,系统可用性;比如工单管理流程可以结合服务台、经验库等工作的整合,以提高工单处理效率。