作者 | Netflix技术博客
策划 | 万佳
本文最初发布于 Netflix 技术博客,经授权由 InfoQ 中文站翻译并分享。
什么是 Dispatch?简单说,它是一个管理事件元数据和资源的危机管理编排框架。通过与组织中使用工具(像 Slack、GSuite 等)的深度集成,Dispatch 可以帮助我们有效地管理安全事件。它利用组织熟悉的工具来提供编排功能,而非引入另一种工具。
这意味着你能让 Dispatch 专注于创建资源、安排参与者、发送通知和跟踪任务以及协助事后回顾——让你真正专注于解决问题!
1危机管理的挑战
管理事件是一项压力很大的工作。因为,你同时要处理许多问题:范围是什么?谁能提供帮助?我还需要谁参与进来?我应该如何处理这一切?
一般来说,每一个事件都是独一无二的,如果同样的事件一而再再而三地发生,你就成消防员了。
危机管理主要包含四个组件:
在本文接下来的讨论中,我们会用到以下术语:
2事件处理步骤
普通事件的处理有很多步骤,其中很多通常都是由人即时处理的。让我们列举下:
每个步骤都需要事件指挥官和事件参与者跨越不同的系统和接口。每次上下文切换都会增加响应者的认知负荷,分散他们解决事件本身的注意力。
3更好的危机管理
危机管理不是一项新挑战,像 Jira、PagerDuty、VictorOps 这样的工具都在帮助组织管理和响应事件。当开始自动化事件管理过程时,我们主要有两个目标:
4Dispatch
Dispatch 是一个管理事件元数据和资源的危机管理编排框架。它使用组织中已经在使用的工具,为事件参与者提供一个全面的危机管理工具集,让他们能够专注于解决事件。
与我们的许多工具不同,Dispatch 没有紧密绑定到 AWS,Dispatch 根本不使用任何 AWS API。虽然 Dispatch 不使用 AWS API,但它利用已经在组织中广泛应用的多个 API(例如 Slack、GSuite、PagerDuty 等)。除了所有内置的集成外,Dispatch 还提供了多个集成点,让其能适应几乎任何现有的环境。
尽管是作为帮助 Netflix 管理安全事件的工具而开发的,但 Dispatch 并不局限于安全用例。它的核心目标是管理事件的整个生命周期,专注于让个体参与进来,并为他们提供推动事件解决所需的上下文。
5工作流
让我们看一下,使用 Dispatch 时,事件指挥官的新工作流:
以下是新工作流的部分优点:
我们想让事件报告尽可能地顺畅,让用户可以在危机发生时直接获取所需的资源。
对事件指挥官来说,在不同的工具间切换时,保证数据的正确性和同步是一项低价值的活动。相反,我们集中使用两种通用工具来管理整个生命周期。Slack 用于管理事件元数据(例如,状态、标题、描述、优先级等),而 GoogleDoc 和 Google Drive 用于管理数据本身。
当团队需要查看许多事件时,Dispatch 提供一个管理 UI。这个界面也是管理事件知识的地方,包括常见术语及其定义、个人、团队和服务。我们用管理 UI 管理事件知识,以便在未来的事件中使用。
6架构
Dispatch 使用了以下组件:
Dispatch 带有内置插件,允许你通过 GSuite(Docs、Drive、Sheets、Calendar、Groups)、Jira、PagerDuty 和 Slack 创建和管理资源。而且,插件架构使得 Dispatch 可以与组织当前使用的任何工具进行集成。
Dispatch 开源项目下载地址:
https://github.com/Netflix/dispatch
说明:
目前,Dispatch 已经在 Netflix 开源网站 上提供。你可以借助 Docker 试用。关于详细的安装步骤和配置方法,请查阅 文档。如果您有任何建议,请随时联系或提交 pull 请求。希望能看到您为了使用 Dispatch 而新建的插件!希望您发现 Dispatch 非常有用!
原文链接:
https://netflixtechblog.com/introducing-dispatch-da4b8a2a8072