前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AIOps,你或許想了解的

AIOps,你或許想了解的

作者头像
Luga Lee
发布于 2022-11-18 06:37:12
发布于 2022-11-18 06:37:12
7470
举报
文章被收录于专栏:架构驿站架构驿站

作者 | Mahipal Nehra 译者 | Luga Lee 策划 | Luga Lee

自 Gartner 在 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标便是自动化复杂的 IT 系统解决方案,同时简化其运营。

简而言之,AIOps 是一种变革性方法,它使用机器学习和人工智能技术来运行事件相关性、监控、服务管理、可观察性和自动化等操作。

使用 AIOps,您可以收集和聚合从可观察性和监控系统、不同应用程序或基础设施生成的不断增加的数据,过滤噪音以识别系统性能和可用性问题的事件和模式,并确定根本原因,并经常自动解决这些问题或向 IT 团队发送警报。

如果您没有使用 AIOps 来完成该过程,那么将很难与快速的技术创新一起运行。此外,如果您依赖传统知识和旧系统,您的 IT 运营更有可能变得不可预测和不可扩展。

正如 Gartner 预测的那样,到 2023 年,40% 的 DevOps 团队可能会在他们的应用程序和基础设施监控工具中实施 AIOps,以提高平台性能和功能。

AIOps 架构

AIOps 架构提供了有助于企业监控、服务管理和自动化无缝集成的方法和技术,以提供完整的 AIOps 解决方案。

AIOps 架构使跨操作监控的洞察力成为可以实现

如上图所示,在 IT 运营方面,AIOps 有三个关键领域,即监控(观測)、参与和行动。

与传统的事件管理和监控工具不同,在可观察性方面,基于机器学习的功能用于确保在满足组织的监控需求时没有留下任何差距或盲点,无论其架构如何設計。

在可观察性阶段,发生的主要过程包括数据摄取、数据集成、事件抑制、事件重复数据删除、基于规则的相关性、机器学习相关性(包括异常检测、事件相关性、根本原因分析和预测分析)、可视化、协作和反馈。

AIOps 架构的 Engage 部分与 IT 服务管理(ITSM)及其功能有关,这些功能通过不同的指标和功能处理流程及其执行。由于 Engage 部分处理服务管理数据,它充当 ITSM 中发生的所有活动或操作的存储库,包括问题管理、配置管理、事件管理、更改管理、容量管理、可用性和服务级别协议。

在可观察性事件中,指标、跟踪和日志充当核心数据;在 Engage 中,核心数据仍然围绕着不同进程中操作的执行,其中数据是按需和实时分析的混合。

参与的主要阶段包括事件创建、任务分配、任务分析、代理分析、更改分析、流程分析、可视化、协作和反馈。

最后,在法案阶段,实际执行技术任务。该法案是执行所有技术任务的最后阶段,如更改执行、事件解决、服务请求履行等。正是在这里,发现的所有事件都得到了解决,系统恢复了正常状态。

AIOps 如何工作?‍

通过查看支持其流程的技术组件——机器学习、大数据和自动化,您可以简单地了解 AIOps 的工作原理。AIOps 在独立部署时效果最佳,并提供一个集中的系统来协作从多个监控源收集和分析数据。

注意:数据可以包括流媒体实时事件、网络数据、历史性能事件、系统日志和指标、事件相关或票务等。

收集数据后,AIOps 实现了机器学习和分析功能,以:

  • 从大量数据中识别和分离重大异常事件警报。
  • 检测异常事件的根本原因,并提出解决方案。
  • 与拟议解决方案一起自动向运营分析师发出警报。
  • 根据问题的性质为异常事件创建补救措施,并实时解决问题。

最后,基于分析结果,AIOps 的机器学习有助于调整算法,甚至创建新的算法来确定早期阶段的问题,并提出具有高度影响力的解决方案。简而言之,鉴于之前的结果,AIOps 模型继续改进。

AIOps 核心要素

现在,您必须知道,AIOps 背后的核心元素是大数据和机器学习。为了理解这两个术语,我们将在这里更好地研究它们。

1、大数据

由于 AIOps 从众多资源中摄取数据,因此在大数据技术上构建 AIOps 平台至关重要。大数据是指无法使用传统数据处理软件处理的复杂而大型数据集。它包含的数据种类更丰富,体积越来越大,速度也被称为大数据的三个 V。

随着 AIOps 将来自不同来源的大型、复杂、变体数据集集成到数据仓库中,如果人们不使用大数据平台,处理这么多数据量的速度可能会变得无法管理。

2、机器学习

AIOps 的第二个但最重要的部分是机器学习,这是人工智能的一个关键方面。机器学习的核心是研究人类行为,使用算法和数据复制它们。当 ML 在获得信息以解决问题后实现时,它可以提供比人类本身更好的结果准确性。

同样,ML 帮助 AIOps 平台利用其能力分析数据并检测模式和异常,同时监控事件和实体。然后,分析的数据用于提供见解并到达根本原因警报。

AIOps 收益及挑戰

AIOps 的主要好处如下:

  • 更高的系统可用性:随着 AIOps 确保现代混合基础设施的最大应用程序可用性,它已成为潜在的游戏规则改变者。
  • 在此期间,更好的 SLA 合规性进行修复:与IT服务管理功能集成,AIOps 可以在事件中找到模式,识别有用的见解,并允许自动化解决方案。所有这些都减少了维修的平均时间,同时超过了 SLA 合规性。
  • 最小人为错误:由于 AIOps 自动化 IT 团队处理的操作的大部分平凡和迭代任务,它同时减少了人为错误。
  • 更好的自动化事件检测:AIOps 节省了大量时间,因为它通过事件分析来验证事件,从而减少了伪事件造成的噪音。
  • 预测和愤怒预防:AIOps 使用基本的 KPI 来衡量运营绩效,创建智能建议来帮助IT运营完成其目标。
  • 成本优化:成熟的 AIOps 系统可以通过将任务从人类卸载到算法来影响性地降低运营成本,从而导致人力资源将时间花在其他重要任务上。
  • 更好的环境可见性:使用 AIOps,企业可以识别机会,做出战略决策,并识别 IT运营中的低效率。

AIOps 带来的一些挑战是:

  • 困难的组织变革管理。
  • 预期不匹配。
  • 僵化的过程。
  • 数据可用性和监控方面的困难。
  • 缺乏域输入。
  • 预测分析不准确。
  • 由于数据漂移,历史数据的最低准确性。
  • 难以理解机器学习。

AIOps 用例場景

如我们所知,AIOps 旨在收集和分析 IT 运营数据。AIOps 的一些常見的用例場景如下所示:

  • 异常检测

AIOps 不断分析和比较数据与有助于检测潜在问题的历史事件。

  • 事件相关性

您可以使用 AIOps 进行事件事件相关性,因为它可以快速处理和分析事件数据,同时在问题失控之前为问题提供解决方案。

  • 预测分析

除了早期错误检测外,具有数据收集和分析功能的 AIOps 可以帮助机器学习算法了解当前和历史数据趋势,同时为未来结果提供可操作的见解。

  • 数字化转换

随着 AIOps 从 ITOps 中删除新技术的复杂性,为不受限制的转型创造了一个新的空间。它帮助组织利用灵活性进行新的进展,以应对其战略目标。

  • 根本原因分析

人们还可以使用 AIOps 通过关联许多数据点、跟踪事件模式等来分析根本原因。AIOps 的根本原因分析有助于企业及其用户更有效地识别和解决问题,从而改善客户体验。

  • 云采用/迁移

AIOps 清楚地了解了云的采用和迁移的转变相互依存性,从而最大限度地降低了与此类转移相关的风险。

AIOps的未来

鉴于技术的进步,大多数组织正在从传统基础设施转向在虚拟化环境中运行的动态基础设施,这些基础设施可以根据需要重新配置和扩展。

但是,正如我们所知,这些系统往往会无休止地生成大量数据。甚至 Gartner 也表示,IT 基础设施更有可能每年创建两到三倍的运营数据。

毫無疑問,传统解决方案无法跟上此类数据量,无法对周围环境中的事件进行排序,也无法关联相關数据,以提供有关IT运营的实时分析和见解,满足客户需求。

然而,由于 AIOps 在分析数据、提取异常事件或自动向 IT 团队发送警报的同时,提供了整个基础设施的依赖项和性能的可见性,它已成为现代组织的最佳解决方案。

綜上所述,AIOps 基於现代机器学习和大数据以及其他先进分析技术的平台,通过找到问题的根源并提供推荐的解决方案,以动态、主动和个性化的解決思路来改善IT 运营。

- EOF -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构驿站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
若有帮助,欢迎大家关注及转发,谢谢
若有帮助,欢迎大家关注及转发,谢谢
回复回复1举报
推荐阅读
什么是 AIOps?初学者指南
用于 IT 运营的人工智能(或简称 AIOps)仍然是开发人员、SRE 和 DevOps 专业人士的热门话题。鉴于当今跨混合和多云环境的可观测性工作的广泛性,AIOps 的案例尤其重要。与大多数可观测性平台一样,这一切都始于您的遥测数据:指标、日志、跟踪和事件。
点火三周
2022/09/16
4K0
什么是 AIOps?初学者指南
推荐一个支持Deepseek模型的AIOPS平台
欢迎大家在评论区留言评论自己想了解的工具、方向或职业等互联网相关内容,点赞和推荐多的,波哥会优先安排解答!
IT运维技术圈
2025/02/18
2910
推荐一个支持Deepseek模型的AIOPS平台
实施 AI:加速自动化、数据运营和 AIOps
译自 Operationalizing AI: Accelerating Automation, DataOps, AIOps 。
云云众生s
2024/03/28
1750
实施 AI:加速自动化、数据运营和 AIOps
AIOps入门之路:Elastic Stack与AIOps
AIOps是Artificial Intelligence for IT Operations的简称,我们可以将之称之为智能化运维。
点火三周
2022/03/07
3.5K0
AIOps入门之路:Elastic Stack与AIOps
使用 AI 助手、OTel 标准化、持续性能分析和增强日志分析来变革可观测性
Elastic Observability 提供精准的洞察,通过 AI 助手、基于 OpenTelemetry (OTel) 的标准化解决方案、扩展至性能分析功能以及增强的日志分析,加速问题解决。
点火三周
2024/10/14
2010
使用 AI 助手、OTel 标准化、持续性能分析和增强日志分析来变革可观测性
DataOps、MLOps 和 AIOps,你要的是哪个Ops?
如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops?
深度学习与Python
2021/02/22
1.5K0
DataOps、MLOps 和 AIOps,你要的是哪个Ops?
拉斯维加斯利用人工智能技术打造智慧城市
世界著名的赌城拉斯维加斯正在利用机器学习等人工智能技术来实现城市IT系统的运营,进而打造全美领先的智慧城市。
人工智能快报
2018/10/08
6850
AI代理入侵可观测性:蛇油还是SRE的未来?
Mooster 和朋友们希望加入您的运维团队:了解生成式 AI 代理与可观测性和监控软件相遇时会发生什么。
云云众生s
2024/09/20
950
AI代理入侵可观测性:蛇油还是SRE的未来?
AIOps落地的前提条件探索
Gartner在2016年时便提出了AIOps的概念,AIOps即人工智能与运维的结合,并预测到2020年,AIOps 的采用率将会达到 50%。
嘉为蓝鲸
2019/08/20
1.1K0
AIOps落地的前提条件探索
AI日志分析如何塑造可观测性的未来
随着人工智能的发展,它将在日志管理方面释放更大的潜力,使其成为数字时代可观察性和系统弹性的关键工具。
云云众生s
2024/11/26
5400
为什么人工智能无法解决您的生产问题
生成式 AI 和大型语言模型 (LLM) 显著提高了各个行业和领域的生产力,从营销到工程。作为一名早期创始人,我个人发现它们在日常工作流程中非常有用,从创建管理文档模板到协助代码语法。
云云众生s
2024/08/07
1370
为什么人工智能无法解决您的生产问题
推荐立即使用AIOps的五大理由
当前数字经济的需求,再加上现代应用架构的日益复杂,使得 IT 运营的角色变得更具挑战性。作为回应,人工智能和机器学习已经成为一种减轻一些人工干预的手段。
后场技术
2020/09/03
8380
推荐立即使用AIOps的五大理由
一文读懂云原生可观测性-Observability
Hello folks,我是 Luga,今天我们来分享一下与云原生体系有关的话题- 云原生可观测性-Observability。 作为一个“核心”体系,可观测性在监控分布式微服务应用程序和云基础设施的可见性和控制自动化层面具有举足轻重的意义。
Luga Lee
2023/04/28
3.4K0
一文读懂云原生可观测性-Observability
选型宝访谈:如何通过AI 全面提升运维效率?AIOps实战案例分享
前言
选型宝
2019/08/15
1.1K0
选型宝访谈:如何通过AI 全面提升运维效率?AIOps实战案例分享
大会推荐 | 如何采用最适合团队的Ops文化,看看脸书、字节、深信服、三七互娱 — QCon 广州站
作者 | Srini (شرینی) Vadlamani 各种 Ops 文化概念激增,izOps、MarketingOps、DevOps、AIOps、MLOps、DataOps……对于一个部门或团队来说,拥有正确的技能组合以及采用合适的 Ops 文化日渐重要。 MLOps 和 AIOps 是两个听起来比较相似的术语,用于指代当今行业内截然不同的两个学科。自从几年前引入这些术语以来,Google Zeitgeist 对它们的关注激增,正如谷歌趋势的图表所示。 随着时间的推移,Google Zeitgeist
ThoughtWorks
2022/07/19
6330
大会推荐 | 如何采用最适合团队的Ops文化,看看脸书、字节、深信服、三七互娱 — QCon 广州站
【可观察性】什么是可观察性? 不仅仅是日志、指标和跟踪
随着动态系统架构的复杂性和规模的增加,IT 团队面临着越来越大的压力来跟踪和响应其多云环境中的条件和问题。因此,IT 运营、DevOps 和 SRE 团队都在寻找对这些日益多样化和复杂的计算环境的更高可观察性。 但什么是可观察性?为什么它很重要,它实际上可以帮助组织实现什么? 什么是可观察性? 在 IT 和云计算中,可观察性是根据系统生成的数据(例如日志、指标和跟踪)来衡量系统当前状态的能力。 可观察性依赖于源自多云计算环境中端点和服务的仪器的遥测。在这些现代环境中,每个硬件、软件和云基础架构组件以及每个
架构师研究会
2022/03/28
9250
监控解决方案:10个 Kubernetes 监控工具
Kubernetes (K8s) 是开发人员中最常用的容器编排平台。它自动化部署、扩展和管理容器的能力彻底改变了我们大规模构建和运行应用程序的方式。然而,随着 Kubernetes 变得越来越流行,为了提供高性能应用程序,对强大的监控解决方案的需求变得更加迫切。
DevOps云学堂
2023/08/22
3K0
监控解决方案:10个 Kubernetes 监控工具
AI驱动的可观测性:从AIOps的失败中汲取教训
GenAI 承诺改变我们使用可观察性工具的方式,但要实现预期,就必须吸取 AIOps 错误的教训。
云云众生s
2024/09/07
1510
AIOPS 是什么
如今,在许多企业中,IT运维团队正在面临更加复杂和快速的环境变化。IT系统的复杂性和数量不断增加,这意味着运维人员需要花费大量时间来处理日常的事务,例如应用程序部署、监控、故障排除和性能优化等。为了解决这些问题,一种新的技术被开发出来,它就是AIOPS(人工智能运维),本文将介绍AIOPS的概念、应用和未来趋势。
王磊-字节跳动
2023/02/26
1.5K0
机器学习自动根因分析:期许与悲伤
Maria,一位电子商务网站的可靠性工程师,收到一条警报,由于高于正常水平的失败率,该网站的结账成功率在过去 30 分钟内下降了 15%。使用传统的监控工具,要花费数小时进行人工分析和故障排查。
云云众生s
2024/03/28
2410
推荐阅读
相关推荐
什么是 AIOps?初学者指南
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档