Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >互联网十万个为什么之什么是可观测

互联网十万个为什么之什么是可观测

作者头像
linus_lin
发布于 2024-10-21 03:13:24
发布于 2024-10-21 03:13:24
1610
举报

可观测(Observability)作为现代运维理念,强调系统在运行时应具备全面的、深入的、可理解的状态获取能力。通过收集和分析系统的各种可观测数据,构建一个全方位、立体化的监控与分析体系,运维团队能够在复杂、动态的 IT 环境中实时了解系统内部的健康状况、性能表现以及故障原因,并基于这些信息做出准确的决策,实现快速问题定位、预防性维护以及持续优化。

可观测的主要数据类型包括:

  • 指标数据(Metrics)

指标通常指系统性能相关的可量化数据,如 CPU 使用率、内存占用、网络带宽利用率、数据库查询速率、服务响应时间等。这些实时或周期性收集的数据可用于监控系统性能、资源利用率、容量规划、系统可用性。

  • 链路数据(Tracing)

链路数据常用于跟踪一个请求在多个服务间的调用路径及其耗时。通过收集每个服务节点上的跨度(Span)信息,形成完整的请求链路视图,便于深入理解跨服务边界的服务交互性能和问题定位。

  • 日志数据(Logging)

日志是系统在运行过程中生成的记录信息,包括错误消息、警告、调试信息及用户操作事件等。通过对日志进行收集、存储、搜索和分析,运维人员能够了解系统的执行历史、发现异常情况并诊断问题。

通过对这些数据的收集、聚合、关联和分析,运维团队能够更深入地理解系统运行状态,快速定位和解决问题,进而提升系统的稳定性和可靠性。在复杂分布式系统中,可观测是保证服务质量和进行有效运维的关键手段之一。

为什么需要可观测?

可观测是现代IT系统的核心需求之一,它对于构建稳定可靠、高效灵活的技术基础架构至关重要。可观测的必要性主要体现在以下几个方面。

  • 故障诊断与问题解决

通过实施可观测,运维团队能够实时收集并分析系统的日志、指标、事件以及分布式追踪数据,从而快速定位到系统中的异常或故障点,并采取相应措施进行修复。这有助于减少服务中断时间,提升系统的可用性和稳定性。

  • 性能监控与优化

可观测使得运维人员能够深入了解系统的实时性能表现,包括延迟、吞吐量、资源利用率等重要指标。这些信息可以帮助识别出性能瓶颈及其原因,进而制定优化策略以提高系统性能和效率。

  • 业务连续性和服务质量

为了确保业务流程顺畅运行,满足服务水平协议(SLA)的要求,需要依赖对系统状态的准确掌握。可观测提供了全面的视角来监测系统健康状况,帮助您及时发现潜在风险,保障业务连续性和用户体验。

  • 自动化运维与自愈能力

结合可观测数据与自动化运维工具,可以实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。

  • 安全性与合规性

可观测也有助于安全审计和合规要求,通过记录和分析系统行为,能更有效地检测和防止安全威胁,同时为法规遵从提供必要的数据支持。

  • 决策支持与前瞻性管理

基于历史和实时的可观测数据,管理者能够做出基于数据驱动的决策,预见未来可能的问题,提前进行资源规划和技术架构调整。

可观测和监控的区别是什么?

可观测和监控在 IT 运维和系统管理中都是非常重要的实践。监控是针对系统健康状况的常规监护,而可观测则是对系统深层次内在逻辑的理解与解读,它通过获取更多元、更丰富的数据来提升系统管理和维护的效率与准确性。您可以从以下维度理解两者之间的关键差异。

  • 数据收集与分析的广度
    • 监控通常关注预先定义的关键性能指标(KPIs),如 CPU 使用率、内存消耗、网络流量等,以及服务的可用性和响应时间。监控工具会定期或连续地收集这些指标,并通过设定阈值触发警报。所以监控主要用于发现问题并触发警报。
    • 可观测则强调对系统的深入理解,需要更全面的数据集来推断系统内部的状态和行为。除了基础的性能指标外,可观测还包括日志记录、分布式追踪、应用程序运行时数据等多维度信息,以便在出现问题时能够分析根本原因。
  • 目标与深度
    • 监控的目标主要是发现异常情况并及时通知运维人员,其重点在于发生了什么和何时发生的。更多依赖于预先设定好的表面现象或外部表现,对于复杂系统可能无法揭示深层次的问题。
    • 可观测的目标更加深远,要求系统能生成足够丰富的数据以便了解其内部工作原理,旨在帮助运维团队了解系统为什么以某种方式运行,从而可以更快地定位问题,预防潜在风险,优化系统性能,并支持持续改进。可观测追求的是回答为什么的问题,而不仅仅是表面现象。
  • 主动性与被动性
    • 监控通常是一个相对被动的过程,依赖预配置的规则和检查点。
    • 可观测更具主动性,因为它鼓励从多种角度探索系统的行为模式,即使没有明显的故障信号也能揭示潜在的问题,特别是在快速迭代和复杂的微服务架构下。
  • 决策支持
    • 监控提供的数据主要用于实时发现和报告异常情况等即时决策,比如是否需要重启服务、调整资源分配等应急措施。
    • 可观测提供更丰富、更具洞察力的数据,进行深入分析和诊断,不仅限于紧急响应,还能够支持长期策略制定和技术架构优化。
  • 技术栈与工具
    • 监控工具通常包括仪表盘、图表、警报系统等,用于实时显示系统状态。
    • 可观测工具则可能包含日志聚合平台、分布式追踪系统、时序数据库、APM(应用性能管理)工具以及利用机器学习进行智能分析的组件。

可观测有哪些实际应用?

可观测在实际应用中的表现形式丰富多样,以下为部分典型应用场景。

故障排查

当系统出现性能瓶颈、错误或故障时,运维人员可以通过分析日志记录、系统指标以及分布式追踪数据,快速定位问题发生的具体服务节点和请求链路。

性能优化

利用可观测技术,企业可以深入了解应用程序和基础设施的性能特征,如识别出资源利用率低效的服务、发现响应时间过长的操作等,从而针对性地进行性能调优。

容量规划与预测

根据历史及实时观测到的资源使用情况(CPU、内存、存储、网络流量等),运维团队可以准确预测未来系统的资源需求,并作出相应的扩容或缩容决策,确保业务稳定性的同时降低成本。

安全与合规审计

安全事件发生时,可观测数据可以帮助追踪攻击路径,揭示潜在的安全漏洞。同时,对于满足合规要求,如跟踪操作行为、记录变更历史等,可观测也能提供必要的审计依据。

DevOps 流程改进

可观测将开发、测试、运维紧密联系起来,通过反馈实时的系统运行状态数据,在 CI、CD 流程中快速迭代和持续优化。即时获知代码部署后的真实效果,迅速做出调整。

微服务架构服务治理

在复杂微服务架构中,可观测是理解和控制整个系统的基石。通过统一收集和分析各个服务之间的调用关系和性能数据,能够实现对大规模分布式系统的有效管理和治理。

用户体验保障

对于依赖云计算平台的企业来说,可观测有助于提高服务质量,保证用户获得流畅且无中断的体验。通过对系统全面的监测,及时发现并解决影响用户体验的问题,从而提升品牌口碑和客户满意度。可观测广泛应用于IT运维、软件工程、安全管理等多个领域,它增强了组织对自身系统和业务流程的认知能力,帮助其做出更明智的决策,以应对快速变化的技术环境和业务需求。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SRE云原生实践之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
金融行业可观测案例:业务交易链路可观测建设指南
在金融行业,业务系统是企业的生命线(如银行支付、证券交易等场景),任何故障都可能引发重大损失。随着云原生与微服务架构的普及,系统调用关系日益复杂,传统监控工具难以满足跨系统追踪、实时故障定位的需求。可观测性由此成为金融运维的核心能力——它需覆盖从业务交易链路到基础设施的全栈观测,实现从“被动告警”到“主动洞察”的转型。以嘉为蓝鲸业务监控模块为例,其通过业务拓扑自动生成、黄金指标可视化等能力,为金融业务连续性提供关键支撑。
运维老谭
2025/06/12
1010
金融行业可观测案例:业务交易链路可观测建设指南
可观测平台-1:技术选型分析
可观测性(Observability)是指系统可以由其外部输出推断其其内部状态的程度。系统的可观察性和可控制性是数学上对偶的概念。
行者深蓝
2023/11/26
1.2K0
监控系统与可观测性的融合:智能运维的得力助手
在当今数字化转型的浪潮中,企业面临着日益复杂的IT环境和业务需求。传统的监控系统虽然在资源层面的状态警告方面发挥了重要作用,但在分布式、云原生架构下,其局限性逐渐显现。为了应对这些挑战,可观测性理念应运而生,为企业提供了一种全新的运维视角。本文将探讨传统监控系统与可观测性理念如何融合,发挥各自优势,为智能运维提供更全面、高效的服务。
运维老谭
2025/05/30
1060
监控系统与可观测性的融合:智能运维的得力助手
可观测性建设路线图
可观测性在任何现代软件开发和生产环境中都是至关重要的。它使团队能够更好地识别改进领域,使他们能够就开发流程做出明智的决策。遥测作为可观测性的关键部分,指的是数据收集的连续性。这些数据使组织能够描绘出整个系统健康的全貌,并在管理其应用程序时实现更高水平的可观测性和响应能力。
FunTester
2024/07/30
2280
可观测性建设路线图
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
IT运维是企业信息化建设中不可或缺的一环,其作用在于确保系统稳定性、提高效率和降低成本,对企业的业务生产和服务质量有着至关重要的影响。自十四五规划以来,随着企业数字化转型的加速推进,以及信创转型的大规模铺开,企业IT架构复杂度日益上升,直接引发了对自身运维体系的更高要求。但与此同时,在政策、需求及供给端的多重因素驱动下,IT运维产业也迎来了前所未有的重大发展机遇,具体如下:
爱分析ifenxi
2023/05/09
4260
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
智能运维可观测性:开启数字化运维新纪元
在云计算、大数据、人工智能等新一代信息技术迅猛发展的今天,企业数字化转型已成为不可逆转的趋势。随着业务线上化、架构分布式化和技术栈多元化的发展,传统运维模式正面临前所未有的挑战。智能运维可观测性(AIOps Observability)作为现代运维理念的核心,正在引领一场深刻的运维革命,为数字化时代的企业IT运营管理开辟全新路径。
运维老谭
2025/05/26
2190
智能运维可观测性:开启数字化运维新纪元
风险感知场景(一)之“监控、拨测、巡检、可观测性”
从发现风险角度,我们经常会从监控、拨测、巡检、可观测性、演练、混沌工程等角度发现风险。上周和必示的温博后聊了一下风险感知,今天理理思路,摘“监控、拨测、巡检、可观测性”4点做个简述,再看看风险感知场景的切入点。
彭华盛
2022/11/16
3.8K1
风险感知场景(一)之“监控、拨测、巡检、可观测性”
可观测性中的指标数据治理:指标分级、模型定义与消费体系让系统运行更透明!
直达原文:可观测性中的指标数据治理:指标分级、模型定义与消费体系让系统运行更透明!
运维老谭
2025/06/18
1370
可观测性中的指标数据治理:指标分级、模型定义与消费体系让系统运行更透明!
一文读懂云原生可观测性-Observability
Hello folks,我是 Luga,今天我们来分享一下与云原生体系有关的话题- 云原生可观测性-Observability。 作为一个“核心”体系,可观测性在监控分布式微服务应用程序和云基础设施的可见性和控制自动化层面具有举足轻重的意义。
Luga Lee
2023/04/28
3.5K0
一文读懂云原生可观测性-Observability
杂谈|如何做业务系统上下游的链路监控
全链路监控主要源于现代互联网服务的复杂性和分布式特性,随着近年来微服务架构的普及,服务按照不同的维度进行拆分、组合,一次请求往往需要涉及到多个后端服务,而这些服务可能由不同的团队开发、使用不同的编程语言实现,并部署在几千台服务器上,横跨多个数据中心,这种复杂性使得管理和监控整个系统的行为变得尤为重要。
六月暴雪飞梨花
2025/01/03
3350
杂谈|如何做业务系统上下游的链路监控
新一代可观测性:平台工程中的监控与分析
这是一部关于平台工程的诗歌。译自 Next-Gen Observability: Monitoring and Analytics in Platform Engineering 。
云云众生s
2024/03/28
2630
新一代可观测性:平台工程中的监控与分析
可观测平台解决什么问题
周辰晨
2024/10/15
1390
关于新书《大模型驱动的云原生可观测性》的一点解读
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 基于大模型驱动构建高效、灵活的计算架构的可观测性设施。
Luga Lee
2025/06/09
720
关于新书《大模型驱动的云原生可观测性》的一点解读
传统企业可观测建设之路
在数字化转型的浪潮中,我们面临着将“线下业务线上化”及实现“业务快速创新迭代”的迫切需求,这也进而要求支撑业务的应用系统更加敏捷、可扩展性更高。
嘉为蓝鲸
2024/06/28
2600
微博增值团队可观测性实践落地与回顾-上篇
前言、理论,实践请参考 微博增值团队可观测性探索与实践-初探 、微博增值团队可观测性探索与实践-实践 强烈建议优先阅读。
从大数据到人工智能
2023/04/18
4550
微博增值团队可观测性实践落地与回顾-上篇
经历亿级话单处理优化打磨检验,江苏移动云流一体化到底如何玩转
作者 |王娟 中国移动通信集团江苏有限公司(后文统一简称为江苏移动)是省内规模最大的通信运营商,公司计费用户数近 2 亿,日均话单量超 200 亿。其业务支撑系统包含话单计费、账务处理、服务开通等多个业务场景。 近期,江苏移动引入 Apache Pulsar 等流原生新技术,结合云原生技术体系,完成了基于流云一体化架构的新一代业务支撑系统全面升级,实现了支撑系统在云原生时代新的演进。面对 5G+ 时代的新挑战,新一代业务支撑系统打造了全新支撑架构,通过跨系统间的资源融合、能力融智、数据融通,实现规模化、敏
深度学习与Python
2023/03/29
1K0
经历亿级话单处理优化打磨检验,江苏移动云流一体化到底如何玩转
分层数据采集:构建运维可观测性的多维视角
在当今数字化飞速发展的时代,企业的IT系统架构正经历着从单体架构向分布式和云原生架构的重大转变。这种转变虽然带来了灵活性和扩展性的显著提升,但也使得运维工作变得前所未有的复杂。在这样的背景下,可观测性(Observability),成为了企业IT运营管理的得力助手。
运维老谭
2025/05/26
1180
分层数据采集:构建运维可观测性的多维视角
分布式追踪技术:解开智能运维中复杂系统可观测性的密码
在数字化转型的进程中,企业 IT 架构正经历从单体应用向分布式、微服务架构的深刻变革。这种 “化整为零” 的设计虽然赋予了系统更强的灵活性与扩展性,却也让运维面临 “服务调用链路碎片化、故障定位耗时化、性能瓶颈隐蔽化” 的三重挑战 —— 一个用户请求可能横跨数十个服务节点,传统单点监控模式难以穿透多层服务边界,导致故障排查如 “大海捞针”。
运维老谭
2025/05/26
1120
分布式追踪技术:解开智能运维中复杂系统可观测性的密码
可观测性是什么?新手入门指南!
可观测性被定义为根据系统产生的输出数据(如日志,指标和链路追踪)来衡量当前系统运行状态的能力。
测试开发技术
2023/12/15
6710
可观测性是什么?新手入门指南!
构建可观测性的核心能力是什么?
云原生时代,企业从单体架构发展到分布式架构,广泛采用微服务、容器、Serverless等部署方式,IT基础设施变得愈发不可控。
科技云报道
2022/12/06
5910
构建可观测性的核心能力是什么?
推荐阅读
相关推荐
金融行业可观测案例:业务交易链路可观测建设指南
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档