大模型在蓝鲸运维体系应用——大模型在可观测的增强

原创

嘉为蓝鲸

发布于 2024-06-17 17:07:17

1.2K0

文章被收录于专栏：大模型大模型

前言

可观测性是指对于一个软件系统的运行状态和行为是否可以被监测和分析。它涉及日志记录、性能指标收集、错误追踪等技术手段，用于帮助开发人员诊断和解决软件系统中的问题。

随着 5G、云计算和微服务等技术的深入融合与广泛应用，IT 系统架构正经历着从传统的单体架构向分布式架构乃至云原生架构的转型，这一过程使得企业所面临的 IT 运维环境变得愈发复杂。在这样的背景下，企业需要运维的系统不仅数量多，而且网络架构复杂、基础设施多样。可观测性建设是帮助工程师掌握复杂分布式系统运行状态、感知系统异常、故障定位、根因分析持续改善系统设计的必要手段。

但是在可观测性建设过程中也面临不少挑战：

1、全栈观测对象的数据接入能力

随着云原生、分布式技术的普及以及国产化的要求，越来越多的组件和对象开始涌现，对各种观测对象数据接入能力提出了更高的要求，要求具备灵活的扩展能力，快速低门槛地接入不同对象的数据采集。

2、复杂应用架构下有效的故障感知

以微服务、云原生架构为代表的现代应用架构，其多服务、容器化及云原生技术的特性，极大地增加了观测对象识别、观测能力覆盖及有效告警识别的挑战。在这种背景下，故障感知的方式发生了显著变化。传统的基于资源、状态、结果和趋势的黑盒感知能力已不足以满足现代应用架构的需求，需要扩展至应用层，实现面向单笔请求、单个用户的精确业务流量白盒观测能力。

3、多业务多技术领域高效的故障定位

在复杂业务领域及软件架构下，故障往往涉及多个业务系统、多个技术领域，故障责任边界不清、上下文传递低效、人员技能缺失是实现故障高效定位的难点。

4、打通观测处置联动加速故障处置

可观测体系建设识别问题、定位问题仅是业务连续性保障的第一步，类似人的眼睛接受外界信号后，经过大脑分析感知，做出应答处置进行问题闭环。因此，基于观测工具感知到的异常事件如何进行有效分析，如何打通后端运维处置工具触发有效故障分派及运维操作行为，加速故障闭环，是运维体系生态建设的关键壁垒。

5、故障根因追踪持续稳定改善

在故障突发时，工程师首要工作是定位故障边界、识别故障影响范围、快速故障恢复。因此，在进行重启或回滚操作后，错误代码逻辑或不合理配置等引发的故障根因仍然存在，如何回溯故障现场、分析故障、依赖关系确定问题根因并修复，从而持续改善稳定性是可观测建设的核心价值和建设难点。

随着大模型技术的出现，这一切挑战似乎又有了新的解题方向。