传统的 Workflow 模式有很多局限性,而随着模型能力的不断提升,以及成本的降低,智能体模式成为了可能的选择,结合可观测场景的特征和痛点问题,我们通过智能体实现了破局。
场景复现:快速发现内核错误和K8S集群报错的破窗。
还记得上面的故事吗?内核错误和K8S集群报错就像是烟雾弹,加剧探索根因的难度,这些报错也许有关联,也许没有关联。最好的解决方案,就是在看起来“健康”的时候,提前发现。但是怎么可以突破“未知”去做个全面的检查呢?
在 AI 工作台,上面这个简单的用户提示词就驱动 AI 去规划,努力挖掘缺陷。
(如果在你试用 AI 工作台时,有更好的触发 AI 去深入挖掘风险的提示词,欢迎回复到文章的评论区🙌)。
通过可观测 AI 工作台,借助 Al 生成自己都不懂的 PromQL 来检索数据外,检查的维度也可以让 AI 来规划。AI 通过“随机”努力地突破“未知”,挖掘风险。上面这些问题都修复了,在迎来真正的故障时,我们就可以聚焦真正问题,快速定位原因。
1. Agent决策引擎:像管理员工自主性一样来让 AI 自主规划、自我修正
2. 三层测试体系:分层测试配合 Trace 和 BadCase 泛化,持续优化质量,减少幻觉
3. 知识双飞轮:让 AI 工作台可以覆盖更广更深的智能化场景
可观测 AI 工作台目前已实现了完整的【AI 探索】能力和【知识库】能力。在【AI 探索】页面可以使用不同场景的专家智能体探索可观测 AI 能力,在【知识库】页面可以在平台知识库的基础上,自定义上传企业知识库,以实现更好的 AI 分析效果。
AI 探索页面支持可观测全场景 AI 能力的统一探索,支持用户对单一场景能力进行问答,同时也支持跨不同子产品的关联分析,目标是承载全栈监控数据的 AI 探索。
(1)两种模式
(✨报告能力仅支持在规划模式下使用)
(2)五个智能体
(3)固定工作流报告
为了让 AI 探索的能力能够在用户日常工作中持续提供的价值,我们支持了报告的固定工作流能力,支持用户设置周期性AI分析任务,并按照指定的频率和渠道给用户发送结果通知。
知识具有通用性、专属性和流动性,可观测平台基于腾讯经验为用户提供了“通用”的平台知识;同时为了更好满足不同客户的个性化分析能力,我们支持用户上传“专属”的企业知识;平台知识与企业知识共同赋能智能体,在知识应用的过程中,又会产生新的可沉淀的“流动”知识,从而形成高速滚动的知识双飞轮体系。
可观测 AI 工作台的知识库由【平台知识】和【企业知识】组成。
在知识库的管理上,我们支持两种视角:
对于海量资源场景的告警风暴问题,我们支持了基于 AI 进行全量的告警历史分析与相关资源指标分析,发现异常的告警策略与云产品资源,并对告警原因进行聚类和根因分析,发现潜在的问题,如资源性能瓶颈风险、告警配置不合理问题等,给出用户优化建议。
同时支持生成分析报告,以及固化为工作流定期进行AI分析,发送结果报告给用户。
,时长00:40
APM 的服务体检以往需要人工一个个检查应用和接口异常情况,并一层层得去查看问题,耗时耗力,还要依赖过往经验去分析问题根因,使用门槛很高。
而通过 AI 能力,我们实现了自动查询应用异常或耗时长的情况,并针对问题进一步进行相关接口的分析,以及下钻到 tracid 的链路详情的分析、底层依赖资源的分析,发现根因问题,并给出解决建议,极大地提高了问题排查效率。
,时长00:23
应用服务发生了异常,可能是多种原因,而关联的日志分析与底层资源分析是非常重要的分析途径,以往用户需要手动在不同的数据间切换查看,寻找相关性,门槛很高。
为了解决这个问题,我们基于多个智能体的原子能力,实现了应用异常信息与关联日志数据、底层云产品资源数据的关联分析。
,时长00:38
免去盯盘的烦恼,AI 帮助你自动查询并分析云服务器的资源利用率指标,快速发现问题,并给出资源配置的合理性建议,更能优化成本。
,时长00:47
告警是系统稳定性的“第一防线”,通过实时检测异常(如资源过载、服务异常),助力团队在故障影响用户前快速响应,保障业务连续性,同时优化资源分配与成本控制。
但是完善的告警配置对研发或运维同学的要求很高,有了 AI 能力的助力,我们实现了 AI 自动对当前已有的告警规则与告警历史进行分析,发现告警未覆盖或告警配置错误的问题,帮助用户建立完善的告警体系,保证壁垒的稳固防护。
,时长00:28
通用问答目前主要基于可观测平台官方文档的内容,为用户提供基于 AI 的快速检索能力,当前支持的文档范围为基础监控、应用性能监控和 Prometheus 监控,后续我们会拓展到更多可观测子产品。
1. 一键启用:可观测控制台点击「AI 工作台-AI 探索」,开始探索之旅;
2. 知识注入:在「AI 工作台-知识库」上传企业知识,构建专属知识飞轮;
3. 场景验证:
前置条件配置链接,可复制到网页打开:
为什么选择腾讯云可观测工作台?
通过将智能体的“随机性”转化为运维收益,腾讯云正在重新定义可观测性的价值边界——
✨从被动告警到主动防御,从数据堆砌到智慧生成,从僵化修补到全面观测。
👉深度体验:可观测 AI 工作台正在公测中,欢迎免费体验 。快点击文章最下方的“阅读原文”试试吧!
👉技术研讨:加入 AI 交流群,获取产品最新动态,分享用户提示词与企业知识库最佳实践。
↓AI 交流群↓
腾讯云可观测平台
腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。满足您全链路、端到端的统一监控诉求,提高运维排障效率,为业务的健康和稳定保驾护航。功能模块有: