首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

3.4 事中故障处理(3)故障定位

故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。

02
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Java服务异常排查定位大图

    研发工程师日常的工作除了开发实现新需求之外,排查定位问题也是重要的组成部分。如果在发生线上故障的时能够快速定位线上bug并且修复bug,不仅是研发工程师技术能力的重要体现,同时也可以帮助线上及时止血避免平台故障进一步蔓延,从而导致影响用户体验或者产生不可挽回的资损。但是实际上很多研发工程师由于工作经验还不充足,导致经常在遇到问题的时候不知所措,不知道该如何分析排查定位问题。因此本文主要聚焦日常工作中经常遇到的异常场景,梳理了问题排查定位的思路大图,这样大家在实际项目中如果遇到类似的异常场景,可以按照思路大图进行问题排查定位解决,相信大家掌握了故障定位的分析套路之后就可以做到遇到问题时临危不乱。

    02

    关于数据驱动运维的几点认识

    在一个新的环境中工作了两个多月,从业务模式、平台建设、工作方法和团队工作风格各个方面都有了一些认识。有了这些认识,更能让你体会到工作的发力点在哪里,这次自己的工作方法做了很大的调整,没有去平移过去的工作经验,因为当前的很多预设条件和过去不同(具体就不一一列举)。其实运维工作很多时候都聚焦在两个方面,一个是工具建设;一个是数据建设。在工具平台建设层面上,进一步突破的阻力很大,一则缺乏标准化的基础;其次还在于大家意识的改变。因此这次想从数据分析体系入手,用数据说话,用数据评价运维服务。简而言之,就是数据驱动运维(Data-Driven Ops)。

    01

    天机阁——全链路跟踪系统设计与实现

    小时光茶社 传说中天机阁里有一台掌控世间一切的机器,万物运行由此产生。本文的“天机阁”是一个基于链路跟踪的监控系统,后台开发人员能够通过“天机阁”洞察“天机”,快速解决问题。 摘要 为了支撑日益增长的庞大业务量,业界大量使用微服务架构。服务按照不同的维度进行拆分,互联网应用构建在不同的软件模块集上,这些软件模块可能是由不同的团队开发、可能使用不同的编程语言来实现、可能布在了几千台服务器,横跨多个不同的数据中心,分布式系统变得日趋复杂。 如何快速进行故障定位?如何准确进行容量评估?如何动态展示服务的链路?如

    05
    领券