首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >可观测发布“AI 工作台”,实现从被动救火到主动运维的智能升级!

可观测发布“AI 工作台”,实现从被动救火到主动运维的智能升级!

作者头像
腾讯云可观测平台
发布2025-07-16 13:56:13
发布2025-07-16 13:56:13
2570
举报

导读 | 凌晨三点,告警短信像潮水般淹没手机,容器集群全线报错,10 个监控界面疯狂切换,却找不到问题根源。或者说似乎找到很多问题。 有的节点区区 8 核 switch context 却高达 25w,查看dmesg,dst_release refcnt:-5 报错一堆,一查发现是严重内核错误。有些 k8s 集群,podsandbox_status 高频报错。应用层面的报错就很严重了,中间件全部连接失败。 如果没有人告诉你是网络出了问题,凌乱的你会觉得是什么问题呢? 腾讯云可观测平台正式推出「可观测AI工作台」,通过主动式随机探索技术,让隐藏风险无处遁形,让用户在真正发生故障的时候更加淡定,聚焦目标,快速解决。 下面将具体说明 AI工作台怎么破局上面所述的“崩溃时刻”。一起看看吧!👇

一. 核心能力

| 智能体如何破解运维困局

传统的 Workflow 模式有很多局限性,而随着模型能力的不断提升,以及成本的降低,智能体模式成为了可能的选择,结合可观测场景的特征和痛点问题,我们通过智能体实现了破局。

图片
图片

二. 实战场景

| 从“救火队员”到“风险清洁员”

场景复现:快速发现内核错误和K8S集群报错的破窗。

还记得上面的故事吗?内核错误和K8S集群报错就像是烟雾弹,加剧探索根因的难度,这些报错也许有关联,也许没有关联。最好的解决方案,就是在看起来“健康”的时候,提前发现。但是怎么可以突破“未知”去做个全面的检查呢?

图片
图片

在 AI 工作台,上面这个简单的用户提示词就驱动 AI 去规划,努力挖掘缺陷。

(如果在你试用 AI 工作台时,有更好的触发 AI 去深入挖掘风险的提示词,欢迎回复到文章的评论区🙌)。

图片
图片
图片
图片

通过可观测 AI 工作台,借助 Al 生成自己都不懂的 PromQL 来检索数据外,检查的维度也可以让 AI 来规划。AI 通过“随机”努力地突破“未知”,挖掘风险。上面这些问题都修复了,在迎来真正的故障时,我们就可以聚焦真正问题,快速定位原因。

三. 差异化竞争力

| 三大技术破局点

1. Agent决策引擎:像管理员工自主性一样来让 AI 自主规划、自我修正

图片
图片
  • 上下文爆炸控制:专属摘要节点,超阈值舍弃工具输出和压缩 Span 的能力。
  • AI自优化提示词:AI 生成元提示词,消除噪声并构建“认知闭环”。
  • 规划能力强化:明确的终止条件,专属规划节点。

2. 三层测试体系:分层测试配合 Trace 和 BadCase 泛化,持续优化质量,减少幻觉

  • MCP测试:验证工具基础功能,从参数和输出的内容的属性来让AI思考设计用例。
  • Planner测试:确保规划正确完整、深入;工具调用和工具参数槽位正确。
  • 端到端测试:整体验证问题解决能力;幻觉产生机评。

3. 知识双飞轮:让 AI 工作台可以覆盖更广更深的智能化场景

  • 来自“腾讯经验”的平台知识库:来自腾讯性能与一线运维团队的多年的性能分析和故障处理经验,让 AI 可以有更深入的分析和实际的解决案例支撑。
  • 行业、领域等的企业知识库:让企业可以根据自己的行业和领域的场景来自定义关联可观测智能体的知识库,让 AI 理解自定义上报的内容和自定义指标的计算公式外,还可以提供业务类型、服务阈值、业务资源地图、内部的故障解决案例来定制自己专属的 AI。
  • 不只是知识库,更是飞轮:解决了知识沉淀、使用和更新的闭环问题。

四. 可观测工作台功能介绍

可观测 AI 工作台目前已实现了完整的【AI 探索】能力和【知识库】能力。在【AI 探索】页面可以使用不同场景的专家智能体探索可观测 AI 能力,在【知识库】页面可以在平台知识库的基础上,自定义上传企业知识库,以实现更好的 AI 分析效果。

1. AI 探索

AI 探索页面支持可观测全场景 AI 能力的统一探索,支持用户对单一场景能力进行问答,同时也支持跨不同子产品的关联分析,目标是承载全栈监控数据的 AI 探索。

(1)两种模式

  • 探索模式:让 AI 自主动态思考,按照实际返回,不断修正计划,有更强的随机性。
  • 规划模式:AI 帮忙你先规划步骤,再分步帮你执行,支持你自定义调整计划,更有可能生成符合预期的效果。

(✨报告能力仅支持在规划模式下使用)

(2)五个智能体

  • 可观测联合专家:默认的智能体,适用于所有场景,在探索时如果不@指定智能体,将默认使用此智能体;同时支持多智能体能力联动的场景,如联动应用服务专家和云产品专家的应用异常关联云资源分析场景,以及报告场景只能使用该智能体。
  • 应用服务专家:适用于应用性能监控(APM)场景,如:应用异常与耗时分析、Trace 问题分析、应用关联日志分析等场景。
  • 云原生专家:适用于 Prometheus 监控服务(TMP)场景,如:容器健康检查、容器资源利用率分析、集成云监控数据查询、Prometheus 告警分析等场景。
  • 云产品专家:适用于云产品基础监控场景,如:云产品监控数据查询、资源利用率分析、告警分析等。
  • 可观测知识问答助手:提供包含对 Prometheus、基础监控、APM 和智能体工具的通用知识介绍、问答、教程等。

(3)固定工作流报告

为了让 AI 探索的能力能够在用户日常工作中持续提供的价值,我们支持了报告的固定工作流能力,支持用户设置周期性AI分析任务,并按照指定的频率和渠道给用户发送结果通知。

2. 知识库

知识具有通用性专属性流动性,可观测平台基于腾讯经验为用户提供了“通用”的平台知识;同时为了更好满足不同客户的个性化分析能力,我们支持用户上传“专属”的企业知识;平台知识与企业知识共同赋能智能体,在知识应用的过程中,又会产生新的可沉淀的“流动”知识,从而形成高速滚动的知识双飞轮体系。

图片
图片

可观测 AI 工作台的知识库由【平台知识】和【企业知识】组成。

  • 平台知识:智能体预设的知识,无需用户管理。
  • 企业知识:用户自定义的知识,需要用户主动上传与管理。

在知识库的管理上,我们支持两种视角:

  • 智能体视角:可以直观地看到智能体中已有哪些平台知识和企业知识,从而针对缺少的知识进行上传。
  • 知识视角:主要用于已上传知识的管理,统一查看全部企业知识或平台知识。

3. 重点场景能力示例
(1)告警分析报告

对于海量资源场景的告警风暴问题,我们支持了基于 AI 进行全量的告警历史分析与相关资源指标分析,发现异常的告警策略与云产品资源,并对告警原因进行聚类和根因分析,发现潜在的问题,如资源性能瓶颈风险、告警配置不合理问题等,给出用户优化建议。

同时支持生成分析报告,以及固化为工作流定期进行AI分析,发送结果报告给用户。

,时长00:40

(2)应用服务健康检查

APM 的服务体检以往需要人工一个个检查应用和接口异常情况,并一层层得去查看问题,耗时耗力,还要依赖过往经验去分析问题根因,使用门槛很高。

而通过 AI 能力,我们实现了自动查询应用异常或耗时长的情况,并针对问题进一步进行相关接口的分析,以及下钻到 tracid 的链路详情的分析、底层依赖资源的分析,发现根因问题,并给出解决建议,极大地提高了问题排查效率。

,时长00:23

(3)应用异常关联日志与资源分析

应用服务发生了异常,可能是多种原因,而关联的日志分析与底层资源分析是非常重要的分析途径,以往用户需要手动在不同的数据间切换查看,寻找相关性,门槛很高。

为了解决这个问题,我们基于多个智能体的原子能力,实现了应用异常信息与关联日志数据、底层云产品资源数据的关联分析。

,时长00:38

(4)云产品资源利用情况分析

免去盯盘的烦恼,AI 帮助你自动查询并分析云服务器的资源利用率指标,快速发现问题,并给出资源配置的合理性建议,更能优化成本。

,时长00:47

(5)Prometheus集群告警配置完善度分析

告警是系统稳定性的“第一防线”,通过实时检测异常(如资源过载、服务异常),助力团队在故障影响用户前快速响应,保障业务连续性,同时优化资源分配与成本控制。

但是完善的告警配置对研发或运维同学的要求很高,有了 AI 能力的助力,我们实现了 AI 自动对当前已有的告警规则与告警历史进行分析,发现告警未覆盖或告警配置错误的问题,帮助用户建立完善的告警体系,保证壁垒的稳固防护。

,时长00:28

(6)通用问答

通用问答目前主要基于可观测平台官方文档的内容,为用户提供基于 AI 的快速检索能力,当前支持的文档范围为基础监控、应用性能监控和 Prometheus 监控,后续我们会拓展到更多可观测子产品。

图片
图片

五. 即刻体验!

| 三步开启智能运维

1. 一键启用:可观测控制台点击「AI 工作台-AI 探索」,开始探索之旅;

2. 知识注入:在「AI 工作台-知识库」上传企业知识,构建专属知识飞轮;

3. 场景验证: 

图片
图片
图片
图片

前置条件配置链接,可复制到网页打开:

  • 接入Prometheushttps://console.cloud.tencent.com/monitor/prometheus?referer_tag=ai
  • 接入APMhttps://console.cloud.tencent.com/monitor/apm/system/list?referer_tag=ai
  • 配置告警https://console.cloud.tencent.com/monitor/alarm/config/policy?referer_tag=ai

「免费」体验可观测 AI 工作台

为什么选择腾讯云可观测工作台?  

通过将智能体的“随机性”转化为运维收益,腾讯云正在重新定义可观测性的价值边界——

从被动告警到主动防御,从数据堆砌到智慧生成,从僵化修补到全面观测。

👉深度体验:可观测 AI 工作台正在公测中,欢迎免费体验 。快点击文章最下方的“阅读原文”试试吧!

图片
图片

👉技术研讨:加入 AI 交流群,获取产品最新动态,分享用户提示词与企业知识库最佳实践。

↓AI 交流群↓

腾讯云可观测平台

腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。满足您全链路、端到端的统一监控诉求,提高运维排障效率,为业务的健康和稳定保驾护航。功能模块有:

  • Prometheus 监控:开箱即用的 Prometheus 托管服务;
  • 应用性能监控 APM:支持无侵入式探针,零配置获得开箱即用的应用观测能力;
  • 云拨测 CAT:利用分布于全球的监测网络,提供模拟终端用户体验的拨测服务;
  • 前端性能监控 RUMWeb、小程序等大前端领域的页面质量和性能监测;
  • Grafana 可视化服务:提供免运维、免搭建的 Grafana 托管服务;
  • 云压测 PTS:模拟海量用户的真实业务场景,全方位验证系统可用性和稳定性;
  • ......等等
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云可观测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 导读 | 凌晨三点,告警短信像潮水般淹没手机,容器集群全线报错,10 个监控界面疯狂切换,却找不到问题根源。或者说似乎找到很多问题。 有的节点区区 8 核 switch context 却高达 25w,查看dmesg,dst_release refcnt:-5 报错一堆,一查发现是严重内核错误。有些 k8s 集群,podsandbox_status 高频报错。应用层面的报错就很严重了,中间件全部连接失败。 如果没有人告诉你是网络出了问题,凌乱的你会觉得是什么问题呢? 腾讯云可观测平台正式推出「可观测AI工作台」,通过主动式随机探索技术,让隐藏风险无处遁形,让用户在真正发生故障的时候更加淡定,聚焦目标,快速解决。 下面将具体说明 AI工作台怎么破局上面所述的“崩溃时刻”。一起看看吧!👇
  • 一. 核心能力
    • | 智能体如何破解运维困局
  • 二. 实战场景
    • | 从“救火队员”到“风险清洁员”
  • 三. 差异化竞争力
    • | 三大技术破局点
  • 四. 可观测工作台功能介绍
    • 1. AI 探索
    • 2. 知识库
    • 3. 重点场景能力示例
  • 五. 即刻体验!
    • | 三步开启智能运维
    • 「免费」体验可观测 AI 工作台
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档