线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉“坑”里了,这个“坑”就是线上故障!线上故障的处理过程可以形象地表达为:“踩坑”、“跳坑”、“填坑”、“避坑”。
故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。
随着泛在电力物联网的发展,越来越多的电力设备包括变压器,GIS,开关柜,高压电缆等需要进行局部放电的在线监测。
在大型分布式微服务场景下,各个服务版本快速迭代,各类业务规模不断膨胀,同时监控的场景也在不断的发生变化,线上故障随时可能发生,各个平台错综复杂,如何保证线上服务稳定运行,同时提升运维效率,降低运维成本成了监控平台的挑战。 一、什么是监控
在进行网络爬虫和数据采集时,代理延迟突增是一个常见的问题,影响爬虫的效率和稳定性。本文将详细分析Python代理延迟突增故障的定位和优化方法,并提供实际操作价值的解决方案。
近期公司一台服务器的磁盘告警“磁盘阵列错误”,经检查发现磁盘:“PD0/PD1/PD2 硬盘Medium Error DevId 并BadStripe PD0 PD1”,需要在服务器磁盘彻底崩溃之前进行raid修复,具体过程如下:
为了加强电子政务云平台运维团队收到用户报障或巡检发现异常后的处理应急机制,特制定本预案,主要包括以下内容:
今天我演讲的题目是《智能运维引领数据中心数字化转型》,跟大家分享民生银行在智能运维领域的探索和实践。
研发工程师日常的工作除了开发实现新需求之外,排查定位问题也是重要的组成部分。如果在发生线上故障的时能够快速定位线上bug并且修复bug,不仅是研发工程师技术能力的重要体现,同时也可以帮助线上及时止血避免平台故障进一步蔓延,从而导致影响用户体验或者产生不可挽回的资损。但是实际上很多研发工程师由于工作经验还不充足,导致经常在遇到问题的时候不知所措,不知道该如何分析排查定位问题。因此本文主要聚焦日常工作中经常遇到的异常场景,梳理了问题排查定位的思路大图,这样大家在实际项目中如果遇到类似的异常场景,可以按照思路大图进行问题排查定位解决,相信大家掌握了故障定位的分析套路之后就可以做到遇到问题时临危不乱。
查看服务器性能及快速故障定位 适应环境 - Linux 连通性
在一个新的环境中工作了两个多月,从业务模式、平台建设、工作方法和团队工作风格各个方面都有了一些认识。有了这些认识,更能让你体会到工作的发力点在哪里,这次自己的工作方法做了很大的调整,没有去平移过去的工作经验,因为当前的很多预设条件和过去不同(具体就不一一列举)。其实运维工作很多时候都聚焦在两个方面,一个是工具建设;一个是数据建设。在工具平台建设层面上,进一步突破的阻力很大,一则缺乏标准化的基础;其次还在于大家意识的改变。因此这次想从数据分析体系入手,用数据说话,用数据评价运维服务。简而言之,就是数据驱动运维(Data-Driven Ops)。
为了保证系统的正常运行,企业的运维人员会通过相应的KPI(Key Performance Indicator, 关键性能指标)对系统进行监控。当某些KPI发生异常时,能够及时发出告警,通知相关人员。
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待! 注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利; 注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com 前言: 互联网已经日益进入到人们的日常生活中,像支付、打
随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。
本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明,希望即使是不懂技术的同学也能理解。
前言 腾讯云市场规模近几年飞速增长,承载的业务类型覆盖电商、直播、金融、互联网等越来越多的内外部用户核心业务;基础网络作为腾讯云极为重要的基础设施,采用高冗余设计很好的支撑了业务的高速发展,部分架构甚至达到128台设备冗余,像设备宕机,链路中断,协议收敛等常规故障,业务基本无感知。由于部分业务对网络故障非常灵敏,网络设备转发轻微丢包可能会有影响,针对此类场景,我们需要具备全面而准确的快速自愈能力,能又快又准地定位并隔离异常网络设备,以尽可能快的速度恢复业务。 传统商业网络设备本身具备一定的故障自愈能力
面对不断复杂的生产环境,要增加TBF和缩短TTR的目标,需要围绕“故障发现、故障响应、故障定位、故障恢复”四个关键环节,在人员技能、协同机制、工具平台、数字化感知等方面进行统筹建设
在 Netty 中,所有的 I/O 操作都是异步的,这意味着任何 I/O 调用都会立即返回,而不是像传统 BIO 那样同步等待操作完成。异步操作会带来一个问题:调用者如何获取异步操作的结果?
业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。
在客户端、服务器以及途径的所有设备上执行命令display ip routing-table,查看是否有可达路由。如果路由不可达,则检查路由配置是否存在问题。
为了解决传统数据中心业务部署效率低、资源利用率低、运维管理复杂的问题,数据中心需要往云计算架构场景演进。CloudFabric解决方案的云网一体化场景逻辑示意图如图1所示,云平台提供计算和网络统一管理界面,控制器与云平台开放对接。
微服务化建设需要做很多方面的改造和适应,比如适应微服务开发、适应敏捷运维、打造专门的微服务团队,以及符合云原生指导下的架构设计等。所以微服务化转型,要做好持久战的准备,同时亦不可疏忽每一步的决策。
针对光网络故障实时定位这个挑战,现有的光网络管控系统是否最优?针对硬件设备的异构性,能否实现统一并直接的管控?针对光层瞬发事件,SNMP技术是否还有用武之地?针对大规模故障实时定位,传统的管控软件是否还能应对?本文展示了一个全新的系统,来解答上述几个问题。 在即将举行的计算机网络顶会 NSDI 2022 上,腾讯网络平台部设计并实现大规模光网络实时管控系统TOOP(又名OpTel),通过开放解耦合实现设备统一管控,光层流式遥测实现高精度数据采集,腾讯云平台实现海量数据分析和故障实时定位
AIOps,即 Artificial Intelligence for IT Operations,智能运维。随着智能化时代的快速发展,企业内服务系统的数量不断增加,系统之间的关系也越来越复杂。如图,在传统运维方式中,运维工程师难以快速准确地对海量告警做出正确判断,导致服务停滞,并造成不可逆的损失。在AIOps智能运维下,智能化的判断告警故障定位非常值得深入探索。
2023年,以ChatGPT为代表的AIGC大模型全面崛起,成为了整个社会关注的焦点。
经过几年的平台建设,vivo监控平台产品矩阵日趋完善,在vivo终端庞大的用户群体下,承载业务运行的服务数量众多,监控服务体系是业务可用性保障的重要一环,监控产品全场景覆盖生产环境各个环节。从事前发现,事中告警、定位、恢复,事后复盘总结,监控服务平台都提供了丰富的工具包。从以前的水平拆分,按场景建设,到后来的垂直划分,整合统一,降低平台割裂感。同时从可观测性、AIOps、云原生等方向,监控平台也进行了建设实践。未来vivo监控平台将会向着全场景、一站式、全链路、智能化方向不断探索前行。
随着腾讯云业务的扩大,母机数量越来越多。为减少人力并实现母机故障的自动化定位,本文尝试利用机器学习算法,通过对历史故障母机的日志数据学习,训练模型实现自动化分析定位母机故障原因。
点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 MyCAT 源码解析 作业调度中间件 Elastic-Job 源码解析 分布式事务中间件 TCC-Transaction
引言:最近在调研与选型分布式调用链监控组件。选了主要的三种APM组件进行了实践与比较。本来打算一篇文章写完的,篇幅太长,打算分两篇。距离《几种分布式调用链监控组件的实践与比较(一)实践》已经有近一个月
引言:继上篇《几种分布式调用链监控组件的实践与比较(一)实践》后,本篇将会讲下几种APM选型的比较与性能测试。
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值! 在2018 GOPS全球运维大会上海站,来自腾讯TEG网络平台部网络运营负责人何维兵,做了主题为「大型DCI网络智能运营
其实这个时候谈运维危机有点像在当下讨论股市危机一样,因此写这篇文章时,内心很纠结,特别是这个互联网运维才产生没多少年(10年)的行业,怎么你就来谈危机了?没办法,都因技术发展太快。
上一篇提到运维左移围绕“提高业务连续性保障、提升业务交付速度、辅助提升客户体验、提升IT运营服务质量”4个价值分析运维左移,本篇围绕“提高业务连续性保障能力”这个运维价值分析运维左移的范围。
阿里灵骏智算产品有磐久可预期网络(参考:阿里整网络顶呱呱,整图苦哈哈!),腾讯也没闲着,星脉高性能计算网络为AI大模型构筑网络底座。
前言 AI大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用AI的潜力成为近年AI领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10万亿级别。 前几天横空出世的AI爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的GPT3.5大模型,参数量多达1750亿个。据报道,GPT3.5的训练使用了微软专门建设的AI超算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640 PF-days (即假如每秒计算一千
电信网强调对网络的运行维护管理(OAM),本OAM性能监测体系用于针对IEEE1588v2规范确定的组播T-BC形成的时间同步网络。
导言——AI 大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用 AI 的潜力成为近年 AI 领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10 万亿级别。 前几天横空出世的 AI 爆款产品 ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的 GPT3.5 大模型,参数量多达 1750 亿个。据报道,GPT3.5 的训练使用了微软专门建设的 AI 计算系统,由 1 万个 V100 GPU 组成的高性能网络集群,总算力消耗约 3640 PF-
ping 是常用的网络管理命令,ping也属于一个通信协议,是TCP/IP协议的一部分,适用于windows和linux以及unix。根据reply 反馈结果,来检查网络是否通畅或者网络连接的速度(time)是否正常。主要是端对端的,针对目标ip或者目标网址。
XX公司早在几年前就部署过一套企业网管系统,随着业务的增长,该网管系统由于监控功能单一并且稳定性差,不能满足用户的监控需求。为了减少监控盲点,节省成本。公司急需一套通用性和可扩展性强的综合运维管理系统对整个单位IT数据网络和主机应用的进行统一监管,加快其故障定位和处理速度,尽量减少故障对业务的影响,扭转目前的被动维护局面。
基本上每个公司都有一个NOC团队,负责整个公司技术保障的值班与运营。NOC(Network Operation Center)网络运营中心,这篇捋下NOC负责主要内容。
AC FIT AP架构的网络中存在两种报文,一类是AC管理控制AP的报文,称为管理报文(也叫控制报文),另一类是STA的用户数据报文,称为业务报文。
小时光茶社 传说中天机阁里有一台掌控世间一切的机器,万物运行由此产生。本文的“天机阁”是一个基于链路跟踪的监控系统,后台开发人员能够通过“天机阁”洞察“天机”,快速解决问题。 摘要 为了支撑日益增长的庞大业务量,业界大量使用微服务架构。服务按照不同的维度进行拆分,互联网应用构建在不同的软件模块集上,这些软件模块可能是由不同的团队开发、可能使用不同的编程语言来实现、可能布在了几千台服务器,横跨多个不同的数据中心,分布式系统变得日趋复杂。 如何快速进行故障定位?如何准确进行容量评估?如何动态展示服务的链路?如
👉 腾小云导读 近期大量 AIGC 产品横空出世,可以聊天、写代码、解答难题、写小说,饱受热捧。其技术基座大模型的给力支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么?腾讯的解决方案是什么?腾讯工程师何春志将带来最新解读。欢迎阅读。 ---- 👉 看目录,点收藏 1 业界主流 GPU 集群网络技术路线 2 如何创造AI训练集群下的极致性能网络 2.1 超带宽计算节点 2.2 多轨道流量聚
MySQL在业界流行多年,很好地支撑了携程的业务发展。但随着技术多元化及业务的不断发展,MySQL也遇到了新的挑战,主要体现在:业务数据模型呈现多元化,OLTP和OLAP出现融合的趋势;在MySQL数据库上慢查询治理成本高;使用传统的分库分表方案对开发不友好,核心数据库改造成分库分表方案,时间一般以年为单位。
在数字化转型的浪潮中,我们面临着将“线下业务线上化”及实现“业务快速创新迭代”的迫切需求,这也进而要求支撑业务的应用系统更加敏捷、可扩展性更高。
网络运维也叫运维管理(Operation Administration and Maintenance,OAM)。Maintennance——维护,包括例行维护和故障维护
前端性能监控(RUM) 1. 前后端链路打通,实现端到端全链路故障定位。 在前端 Skywalking 方式接入前端性能监控,后端 Skywalking 方式接入应用性能观测。在前端性能监控页面绑定 APM 相关业务系统,即可实现前后端链路打通,实现端到端全链路故障定位。联动排查前后端异常原因。 详细操作文档:https://cloud.tencent.com/document/product/1464/80520。 2. 增加地域筛选器,方便您分地域查看监控数据,更精准、快速排查异常。 3. 告警新
· 再好的技术、再完美的规章 , 在实际操作层面也无法取代人自身的素质和责任心 。
领取专属 10元无门槛券
手把手带您无忧上云