在万物互联的时代,云是整个互联网的基础。激烈的竞争要求企业不断提高自动化水平,使用云只是第一步,要进一步提高业务效率,就要求能够充分发掘云的价值,要充分挖掘云的价值运维首当其冲。
曾几何时,运维界ITIL一统江湖,随着交付方式从光盘过渡到互联网,随着云时代对更快交付的要求,运维理念也崛起出几个新门派。
1
运维理念从ITIL一统江湖到各门派华山论剑
1.ITIL
ITIL即IT基础架构库(Information Technology Infrastructure Library),由英国政府部门CCTA在20世纪80年代末制订,ITIL主要包括六个模块,即业务管理、服务管理、ICT基础架构管理、IT服务管理规划与实施、应用管理和安全管理。其中服务管理是其最核心的模块,该模块包括“服务提供”和“服务支持”两个流程组。
ITIL最新正式版本是V3.0,包含5个生命周期:
战略阶段(Service Strategy);
设计阶段(Service Design);
转换阶段(Service Transition);
运营阶段(Service Operation);
改进阶段(Service Improvement);
5个管理流程
事件管理(Incident Management)
问题管理(Problem Management)
配置管理(Configuration Management)
变更管理(Change Management)
发布管理(Release Management)
明年将正式发布ITIL v4,ITIL v4吸纳了新时代的要求,大多数ITIL v3的流程都保留在ITIL v4中,但新版本的重点将放在综合服务管理上,而不仅仅局限在IT 服务管理。
有人说,云时代将淘汰ITIL,其实ITIL的生命周期和管理流程在云时代依然有效,有了ITIL的管理,才能保证云及云之上业务的稳定性和可用性,只是在云时代,ITIL更多的融入到工具中。
2.SRE
SRE是指Site Reliability Engineer,即站点可靠性工程师,最早由谷歌提出,谷歌工程副总裁Ben Treynor Sloss在21世纪初创造了这一术语。他将其定义为:“当要求软件工程师设计运维功能时会发生的事情。”
《SRE谷歌运维解密》一书中指出,谷歌的SRE方式有以下几个特点:
第一,使用研发的方式解决运维问题,谷歌的运维要求有软件开发功底,50%的人员要求是软件开发,另外的工程师,要求有软件开发功底,同时具有其他方面的特长。
第二,在保证SLO(服务等级目标)的前提下,尽量提高迭代速度,谷歌不追求100%的可靠性,追求的是更快的迭代速度。
第三,监控分为三级,紧急报警,这个是要立即处理的事件,工单,是可以不立即处理的事件,日志,方便追查。
第四,应急事件处理的能力,依靠的是持续完善运维手册。
第五,变更方面,使用渐进式发布,能够快速的检测问题,并且能快速回退。
第六,需求预测和容量规划方面,要有自然增长预测模型,要有非自然增长的规划,还要有周期性的压力测试。
下面的图有助于更多了解SRE。
(图可点击放大)
来源:
https://coggle.it/diagram/WjCMkJlx9wABUs4h/t/google-sre
SRE的方法论基本建立在云原生的应用之上,并且要依靠工具实现,现在火热的kubernetes就是谷歌将一部分内部工具经过裁剪进行的开源。
3.DevOps
DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合,目标是在保证质量的前提下持续快速交付。
可以把DevOps看作开发(软件工程 )、技术运维和质量保障(QA)三者的交集。
要实现高质量的持续交付,离不开多种工具的配合,从这个角度讲,DevOps也可以看作是工具链,如下图。
4.AIOps
Gartner在2016年提出了AIOps智能运维的概念,AIOps在Gartner的词库中是AlgorithmicIT Operations的缩写,Gartner在《Market Guide for AIOps Platforms》报告中为AIOps作出如下定义:AIOps平台是结合大数据、人工智能(AI)或机器学习功能的软件系统,用以增强和部分取代广泛应用的现有IT运维流程和事务,包括可用性和性能监控、事件关联和分析,IT服务管理以及运维自动化。
也有人将AIOps解释为Artificial Intelligence for IT Operations,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题,AIOps必须依靠算法和工具实现。
从上面的描述可以看出,云时代新的运维理念最终都需要依靠工具来落地,另外,云运维也面临许多挑战。
2
云运维面临的挑战有哪些?
1.复杂云环境的统一管理
根据RightScale 2018 年云状况调查报告,81%的企业采用多云策略,51%的企业采用混合云战略,对多云及混合云环境的统一管理,将每种云资源抽象成统一的标准,提供给云服务消费者,并且计量资源消耗,持续优化成本,是云运维很大的挑战。
2.合规和安全方面的三大挑战
云时代合规和安全面临三方面的挑战:
第一,传统上对于安全边界的划分,对于流程和规范的合规性要求,需要结合云的特点重新改进;
第二,在云时代,用户的数据在云上,不同于独有的数据中心,安全是云厂商和用户的共同责任,在这种这种情况下,用户必须对云的安全防护措施更熟悉,才能整体上把控安全;
第三,所有的业务流量和管理流量都走的是互联网,给了黑客更多的机会,比如,目前登录各大公有云的账号信息如果泄漏,全球任何人都可以登录到你的云控制台,可以做任何事,删除主机,重置密码,盗取数据等等。这就要求,对任何安全安全事件能够动态感知,及时反馈和处理。
3.敏捷可视化的监控
云的特点就是敏捷,资源变化更快,并且随着多云及混合云的采用,云环境环境也更为复杂。云时代的监控要求更敏捷,随着云资源的弹性,能够实时获取数据,反应变化。对整体的云资源使用情况,能够统一监控,并且可视化的呈现出来。
4.做好容量管理和成本优化
云的随时扩展的特性,容易造成一种假象,云上不需要容量管理,其实云上的浪费是一种常态,Gartner研究显示到2020年,由于缺乏成本优化手段,80%企业的云资源成本将会大幅超出预算;同时,45%的企业由于缺乏优化措施,在直接迁移上云的过程中会超买55%的资源,并且在上云的第一个18个月内会多花费70%。所以,云上的容量管理要从保持一定的冗余度转换到如何充分利用云的弹性,降低资源浪费的轨道上。
5.通过IT自动化使业务效率更高
云的API使各项服务的自动化成为可能,所以在云时代,企业IT部门的竞争就是自动化水平的竞争,特别是在同行业内,谁能充分利用云的特性,通过云进一步提升业务的自动化水平,谁就更能在竞争中抢得先机。
如何应对以上的挑战,答案是使用高效率的工具,好的云运维工具可以使效率得到巨大的提升,那么如何评估云运维工具,目前在云运维方面有哪些典型的工具可以选择?
3
如何评估云运维工具?
评估云运维工具水平,可以从以下方面评估:
1. 云运维工具管理范围:
对公有云支持的范围,是否对主流公有云全部支持;
对私有云支持的范围,是否对常见的私有云产品支持;
是否支持物理机的纳管,甚至是否支持X86和小型机异构环境的纳管。
2. 是否有以下功能模块
支持云主机的增删改查;
支持云网络的管理;
支持计量和计费数据统计,是否支持云费用的优化。
3. 是否支持常见的运维功能
跨云的批量部署;
跨云的统一监控功能,并且能够动态的更新;
所有操作可以审计;
用户管理;
权限划分。
4. 是否具有丰富的API,方便和企业其他管理平台对接
云运维工具复杂度很高,并且要随着云产品和云技术的发展及时升级,那么在云运维方面,有哪些开源工具可以使用?
纵观市场,往往只有Cloud MSP云管理服务商才能提供满足用户要求的产品(关于Cloud MSP能做什么,请参考
云时代,Cloud MSP时代!
),在Cloud MSP中,ChinaMSP提供的云运维工具更强调云原生的流程管理的工具链概念,将ITIL和DevOps的优点进行了融合,可以全面的满足云运维需求。
4
ChinaMSP云运维工具解析
作为专业的云资源管理与优化服务提供商,ChinaMSP提供全栈的云服务,如:云迁移咨询与实施服务,成本管理、优化与容量规划服务,安全监控与审计服务,云运维Pilot服务,云灾备服务,而支撑这些各具特色服务的云运维工具主要有以下四项:
FarTag,一款公有云标签管理自动化工具。可以对多个公有云上的计算、存储、网络、大数据等IaaS和PaaS资源进行具有业务含义的智能标签分配,并且提供智能优化建议与可视化展示,还能够自动进行标签合规性的异常检查。通过FarTag可以提升公有云的精益管理水平,可以对资源授权自动化、自服务、DevOps、费用分析与容量优化等服务提供有效支撑。
CostVison,一款混合云成本管理与优化工具,能够帮助用户在混合IT环境下按照公有云的精益方式进行成本核算、账单分摊,并且提出费用优化建议,如预留实例购买建议,实例采购选择等等。支持的功能包括:费用分析,费用分摊,预算匹配,优化建议,自动执行周期操作,资源规格自动跳转,负载均衡自动扩缩策略,自动发现竞价实例,自动调整预留实例价格,自动备份与删除快照。
IAM Manager,一款基于角色的访问控制(RBAC)自动化工具。公有云提供的权限虽然细致,但同时带来了很高的使用门槛,ChinaMSP通过IAM Manager,帮助用户自动根据角色创建IAM策略,并且当资源访问情况发生变更时,只需变更资源标签,资源的授权可以自适应完成权限变更。降低用户使用公有云的门槛,提升云上安全性。
除了上述和云运维与管理相关的工具以外,ChinaMSP还提供云迁移的工具:
MigFlash,一款通过高度自动化实现用户业务零中断迁移上云的工具。云迁移是企业使用云的巨大挑战,上一篇文章云迁移正在走向工具化和自动化(点击阅读),其中有对MigFlash详细的解析。
ChinaMSP更强调云原生的流程管理的工具链概念,将ITIL和DevOps的优点进行了融合。
(图可点击放大)
更多CloudMSP的运维思考在11月16-17日上海举办的CNUTCon全球运维技术大会上展现,ChinaMSP将带来《碰撞中探索:ITIL流程管理思想和软件思维结合下的云原生运维》分享,运维专家在4展台进一步探讨云时代的运维问题。
5
总结
古人云,工欲善其事,必先利其器,从掌握火的的使用,到对核能的利用,每一次工具的革命,都带动人类文明的巨大进步。在运维领域,每一次运维理念的进步,都要依靠工具落地。随着云的深度使用,云环境越来越复杂,云运维的本质是高效的工具,只有借助工具,才能使云产生最大的价值!(文章转自:云技术实践)
领取专属 10元无门槛券
私享最新 技术干货