组织需要在流程中构建更多自动化,特别是对于像事件响应和服务管理这样的劳动密集型任务。
译自 5 Ways Process Automation Can Streamline ITOps,作者 Joseph Mandros。
ITOps 团队的时间往往没有花在为业务增加切实价值上,而是花在通常与运行生产服务相关的重复性手动工作上,谷歌将其描述为“缺乏持久价值”。
ITOps 团队很容易陷入这种劳动密集型工作的恶性循环,这意味着他们无法专注于更具创造性的任务和推动组织真正价值的关键工作。
随着数字基础设施变得更加复杂以支持客户现在要求的无缝体验,这一挑战只会越来越大。这意味着过度依赖主题专家 (SME),例如开发人员,即使是例行任务也需要他们参与,导致无聊和倦怠,而此时此类技能已经供不应求。组织根本无法承受现状。他们需要在流程中构建更多自动化,特别是对于像事件响应和服务管理这样的劳动密集型任务。
但减少繁琐工作的旅程应该从哪里开始?这里有五个想法。
更改需要时间,尤其是在现代 IT 环境中,其中更改配置可能会对复杂依赖项产生多米诺骨牌效应。一个典型的企业中可能需要管理数千个此类配置,每个配置都可能有一组很大的依赖项。可以帮助完成此过程的文档制作起来很耗时,因此并不总是可用。变更管理审查可能需要多个决策者的意见,这会给流程增加进一步的延迟和开销。
更好的方法是将预先批准和标准化的配置更改列表构建到自动化解决方案中。这可能包括来自现有配置工具(如 Ansible 和 Salt)的工具、脚本和自动化。此类存储库的使用可以委托给非主题专家,以加速更改审批、减少人为错误的机会并提高 ITOps 的质量。通过使用专门的自动化解决方案,组织甚至可以从 Jira 或 ServiceNow 等现有工具直接触发自动化流程,几乎完全消除人工参与。所需的时间只是创建和批准初始配置更新。
供应请求通常由 SME 处理。这是因为平台或云工程师需要完成一系列专门的任务,从启动虚拟机 (VM) 到指定 Linux 操作系统映像、附加存储,然后通过负载均衡器公开应用程序的 URL。问题在于,这些专家经常受到重复的中断困扰,从而减少了他们花在高价值任务上的时间。
使用专门用于供应和连接新基础设施的自动化端到端工作流简化此流程。预先批准的自动化工作流允许开发人员和其他人员自行进行供应,而无需联系平台或云工程专家。更好的是,他们可以在当前使用的工具(如 Jira 和 ServiceNow)中执行此操作。甚至可以在开发人员获得访问权限之前预加载依赖项并应用安全设置,以降低治理风险并加速流程。开发人员可以立即开始编码,而无需中断 ITOps 团队。
一旦基础设施供应完毕,相关团队将开始将应用程序部署到云中。虽然一些人使用高度自动化的更新机制作为 CI/CD 的一部分,但通常使用手动部署和测试。在某些组织中,团队甚至可能仍然依赖基于 ITIL 的变更管理流程,该流程要求发布工程师、数据库管理员 (DBA) 和网络/安全工程师部署软件包和滚动更新,并运行质量保证。
开发人员可以在暂存中构建自己的部署自动化,然后在测试后将其传递给 ITOps。这些相同的开发人员团队可以使用自动运行手册定义自助操作任务并预先验证系统更改,从而满足变更控制要求。可以根据需要将自动部署工作流安全地委托给组织中的其他团队。
在 IT 基础设施中创建和管理用户帐户和权限可能是一项耗时且资源密集的任务。然而,维护此类系统及其数据流的安全性和完整性至关重要。IT 管理员需要确保只有经过授权的用户才能访问此数据,这符合最小权限原则:即他们只能临时访问完成工作所需的数据,而不能更多。这从安全角度很重要,但也是成本控制问题。如果用户不需要访问特定资源集,那么他们的帐户/许可证就可以释放给同事。
通过使用工作流自动执行用户配置,IT 运维可以基于预定义的规则和策略创建新的用户帐户并分配角色和权限。在员工离职或更换角色后,对取消配置执行相同的操作。这将有助于加速入职和离职、减少人为错误、加强安全性和合规性,并优化许可证和资源使用。这些工作流甚至可以通过自助服务功能委派给 HR 和其他团队。
更新软件和/或重新配置基础设施是一项永无止境但至关重要的任务,以减轻安全性和合规性风险。然而,在许多组织中,这仍然是一个高度手动的过程,需要高度的系统意识和专业知识,以确保更新按预期运行,而不会破坏底层系统。通常需要在同一维护窗口期间对补丁进行分组应用,而第三方依赖关系会进一步使该过程复杂化。这是一项高度专业化的任务,根据需要修补哪些资产,可能需要来自各种 SME 的输入。资源限制会增加错误发生的可能性。
相反,考虑使用自动化平台来安排任务并在发现漏洞时修复漏洞。这将通过消除对仅专家工程师可用的手动任务和脚本的依赖,减轻各个 SME 的负担。这意味着他们可以花更多时间进行创新,而花更少的时间处理救火问题。
繁琐工作并不总是令人不快的。然而,对于组织中一些最有价值的成员来说,这是一种低效的时间利用方式,这意味着他们不断被打断来解决少数人的需求,而不是大多数人的需求。这可能会对 SME 倦怠和财务底线造成严重影响。自动化不是万能药,但它确实让我们得以一窥更好的做事方式,这将有助于优化宝贵的时间和资源。
不断增长的运营复杂性可能看起来是自动化的主要障碍。事实上,它应该是一个驱动力。从小处着手,选择高接触功能(如事件响应)中的例行、重复的 IT 流程。结果应该不言而喻。