近期收到了公司大礼包,想着在找工作期间把Linux RAS整理一下,写成系列文章。毕竟作为OS RAS负责人兼开发,为阿里云X86和倚天710 RAS落地了很多RAS增强和解决方案,对阿里云服务器稳定性做出些许贡献。期间也有不少其他团队过来请教过RAS事项,所以想着记录下来,对以后计划了解和学习RAS的Linux爱好者有所帮助。另外个人视角主要从Linux内核出发,梳理Linux RAS涉及的组件、功能、特性都有哪些,也会介绍内核RAS涉及的硬件。
随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。
解决这些问题通常需要仔细的故障排除和系统维护。如果无法解决问题,可能需要寻求专业的技术支持
在Linux系统中,当我们看到类似消息:"watchdog: BUG: soft lockup - CPU#1 stuck for 34s! [kworker/1:3:3315742]",这通常表明操作系统检测到了一个严重的问题,即CPU软锁定。这种情况是由于CPU在较长时间内没有响应系统调度器的中断。下面,我们将深入讨论这一现象及其潜在的解决方案。
(1) 硬件故障报警灯是一个发光二极管,它亮表示系统检测到了硬件故障,管理员应该注意。
首先必须了解Ceph里面的MON、OSD、MDS、MGR、RGW各种服务的软硬件需求,知道你规划的Ceph规模是多大,当前分配给对应容器的资源是否合适,不然到了后期你需要做各种硬件资源调整而不得不重启容器的时候,你的服务可用性会可能会大打折扣。总之就是一句话,硬件资源一步到位,不要瞎折腾。别让OOM成为常态!
陈浪交,腾讯云容器产品架构师团队负责人,负责腾讯云容器产品的售前、售后相关工作。 本文整理自腾讯云容器产品,容器解决方案架构团队的陈浪交在 Techo 开发者大会云原生专题的分享内容——一个优秀的云原生架构需要注意哪些地方。本文将会给大家分享云原生架构的特点和以及实践过程中的一些注意事项。 从CNCF给出的云原生官方的定义可以看出,云原生架构其实是一种方法论,没有对开发语言、框架、中间件等做限制,它是一些先进的设计理念的融合,包括容器、微服务、尽量解耦合、敏捷、容灾、频繁迭代、自动化等。 云计算发展到今天
陈浪交,腾讯云容器产品架构师团队负责人,负责腾讯云容器产品的售前、售后相关工作。 本文整理自腾讯云容器产品,容器解决方案架构团队的陈浪交在 Techo 开发者大会云原生专题的分享内容——一个优秀的云原生架构需要注意哪些地方。本文将会给大家分享云原生架构的特点和以及实践过程中的一些注意事项。 从CNCF给出的云原生官方的定义可以看出,云原生架构其实是一种方法论,没有对开发语言、框架、中间件等做限制,它是一些先进的设计理念的融合,包括容器、微服务、尽量解耦合、敏捷、容灾、频繁迭代、自动化等。 云计算发展到
Zabbix 运维监控平台报警应用系统业务IP Ping 连通性异常,主机操作系统监控agent离线。远程登录服务器BMC查看服务器宕机,操作系统无法正常加电拉起,BMC查看系统告警日志显示Riad卡故障离线,一键收集日志等待厂家分析。
1. 在Meta新的重返办公室政策生效前几周,该公司的人力资源主管写信给员工,警告一再违反规则的员工将面临严重后果。zoom和亚马逊也都宣布,重返办公室。就是说,远程工作并没那么容易实现。
Core Dump 也称之为“核心转储”, 若当前操作系统开启了 core dump ,当程序运行过程中发生异常或接收到某些信号使得程序进程异常退出时, 由操作系统把程序当前的内存状况以及相关的进程状态信息存储在一个 Core 文件中, 即 Core Dump 。通常,Linux 中如果内存越界会收到 SIGSEGV 信号,然后就会进行 Core Dump 相关操作。
在本节中,我们对VMware FT在一些应用工作负载和网络基准方面的性能做了基本评估。对于这些结果,我们在相同的服务器上运行主虚拟机和备份虚拟机,每台服务器有8个英特尔至强2.8Ghz CPU和8G字节的内存。这些服务器通过一个10Gbit/s的交叉网络连接,尽管在所有情况下都会看到,使用的网络带宽远低于1Gbit/s。两台服务器通过一个标准的4Gbit/s光纤通道网络连接的EMC Clariion访问它们的共享虚拟磁盘。用于驱动一些工作负载的客户端通过1 Gbit/s网络与服务器相连。
随着腾讯云业务的扩大,母机数量越来越多。为减少人力并实现母机故障的自动化定位,本文尝试利用机器学习算法,通过对历史故障母机的日志数据学习,训练模型实现自动化分析定位母机故障原因。
2009年秋天,微软数据中心的一次服务器故障导致T-Mobile Sidekick手机存放在微软服务器上的用户数据全部丢失。这些数据包括通讯录、日程表、照片、待办事项等等;
IT运维中常见的硬件问题,如设备过热或服务器过载,即使是很短的时间,也可能导致企业的巨大的损失和客户流失。据Dynamic研究发现:企业组织面临的超过 45% 的网络中断完全是由于硬件故障造成的,因此 24x7 全天候监控硬件至关重要。虽然硬件故障可能由于多种因素而发生,但下面列出了导致跨网络基础设施硬件故障的一些最常见问题。
本文节选之 DDIA 《Design Data Intensive Applications》,DDIA是一本神书,是一本可以让很多高级资深工程师醍醐灌顶的书。
- 32%的交换机故障源于硬件故障,27%源于意外停电。这是数据中心交换机故障的两个主要原因,大多数故障交换机在不到6分钟内就能恢复。
Kafka 是一个分布式的高可用、高性能消息队列,它可以用于大规模的数据处理和流式计算场景。在 Kafka 中丢失消息是一件非常不好的事情,因为这会导致数据的不连续性、计算结果的准确性下降等问题,从而影响到系统的功能和运行效率。下面我将从多个方面探讨 Kafka 为什么会丢失消息,并对其解决办法和优化策略进行简要描述。
本文档描述了如何查看接口状态,以及当接口的物理状态处于DOWN状态时,如何定位接口故障的原因,并恢复接口到UP状态。引起接口物理DOWN的原因主要包括硬件故障和软件故障两个方面。硬件故障,包括本端或对端设备的硬件故障,例如单板、接口、光模块、光纤、网线等故障。软件故障,主要是链路两端配置不一致,例如端口协商模式、速率、双工等配置不一致。为了更加精确的分析接口物理DOWN的故障原因,本文以故障可能的引入点为线索,按照人为因素导致的故障、设备自身硬件故障、连接介质故障、连接介质使用方法错误、环境因素导致的故障五步骤为排查顺序,逐步找到问题根因并排除故障。
高可用真是一丝细节都不得马虎。平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug。偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发性出现的问题更难排查。今天,笔者就给大家带来一个存储偶发性故障的排查过程。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
大家好,我是猫头虎博主!在日常的计算机使用过程中,硬件故障是无法避免的问题。但如何快速、准确地定位到问题所在,是每个技术爱好者和专业人士都应该掌握的技能。在这篇博文中,我将带大家深入探讨硬件故障的常见原因、诊断工具和解决策略。 我将结合实际案例,帮助大家更深入地理解和应用。🔧
pgsql目前是最大的开源数据库,集成了mysql与mongodb的特性,并且可以实现数据零丢失,支持同步复制,异步复制,延迟复制,兼容多种数据类型json,数组,以及自定义函数等。
为什么要监控 对系统不间断实时监控 实时反馈系统当前状态 保证业务高可靠的运行 怎么监控 监控工具:free,vmstat,df,top,ss,iftop... 监控系统:Zabbix(监控非容器,监控容器会比较麻烦),Open-Falcon(监控非容器,小米开源),Prometheus image.png 监控什么 硬件监控:温度,硬件故障等(prometheus原生不支持,但是有开源的agent); 系统监控:CPU,内存,硬盘,网卡流量,TCP状态,进程数(prometheus原生支持); 应用
在华为设备中,涉及到日志的,我们经常会在日志级别上迷糊,本文就给大家介绍8种日志级别以及每个级别适用的场景。
各位的爬虫大佬们!当你们在使用PPPoE连接时,偶尔会遇到硬件故障导致的连接问题。今天,我将为你提供一些有用的指导,帮助你识别和解决PPPoE连接中可能出现的硬件故障。
说到备份恢复,不管你对心理学是否感兴趣,建议你要理解下墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。
手上管理的其中一个Hadoop集群,承接着大量的数据流量,一直以来运行平稳,最近突然发现集群有时会出现MR作业运行缓慢,put文件至HDFS偶发速度慢的问题,像大数据集群这种问题,有点疑难杂症的味道,本次也是经历了10多个小时的定位才真正把问题解决。
如今,我们站在由人工智能 AI 引领的技术革命的边缘,这场革命是否有望以前所未有的方式改变网络工程运维的面貌呢?
构建能够应对分布式系统中不可避免的故障是工程师面临的基本挑战。当软件跨网络和服务器部署时,故障不再是例外,而是必然的。硬件可能会出现故障,网络可能会分区,整个数据中心可能会离线。随着复杂性的增加,潜在的故障点也会增加。
MHA(Master High Availability)目前在MySQL高可用方面是一个相对成熟的解决方案,它由日本 DeNA 公司 youshimaton(现就职于Facebook公司)开发,是一套优秀的作为 MySQL 高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中,MHA能做到在0~30秒之内自动完成数据库的故障切换操作,并且在进行故障切换的过程中,MHA能在最大程度上保证数据的一致性,以达到真正意义上的高可用。
硬件的监控其实还是蛮重要的,这个部分在嘉年华中也着重强调过,不过做起来确实还是有一些难度,我们也尝试了一些方法,最终准备两条腿走路,一边使用中控的方式来统一监控管理,同事考虑把硬件监控揉入zabbix的监控体系之中。今天来说使用统一监控的方式。 在强调硬件监控的重要性时,最好的说明方式就是用数据说话。 下面的是我在Oracle嘉年华分享中提到的一个部分,对于监控硬件监控还是很容易忽略的一个环节,但是又是最无奈的一个环节。 在各类故障之中,硬件故障占用了绝大部分的故障比例。当然这个数字也有一些针对性,不具有普
1. 定期检修、维护。服务器硬件的性能受使用寿命的影响,定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是即将出现故障的前兆。
Zabbix 高可用为运行Zabbix Server 的服务器提供了针对软件/硬件故障的保护,并允许在软件/硬件维护期间最大限度地减少停机时间。
目前有一个很实际的需求,因为硬件老化严重,需要能够借助一次维护时机把数据库迁移到一台较好配置的机器上,避免潜在的硬件故障导致的业务停顿,也算防患于未然吧。 本来这个事情不是很紧急,但是因为硬件故障导致的问题防不胜防,踩过几次坑,就会有些经验教训,在这种情况下维持现状就是一个潜在的炸弹。 当前的硬件环境是Solaris,Oracle 10gR2 单实例,数据量在800G左右。我大体想了下,主要的目标有以下几个。 1.借助这次维护的时机,能够把数据库升级至11g 2.升级的过程需要尽可能保留一个
#1 - 错误: 设备上无剩余空间 当你的类UNIX系统磁盘写满了时你会在屏幕上看到这样的信息。本例中,我运行fallocate命令然后我的系统就会提示磁盘空间已经耗尽: $ fallocate -l 1G test4.imgfallocate: test4.img: fallocate failed: No space left on device 第一步是运行df命令来查看一个有分区的文件系统的总磁盘空间和可用空间的信息: $ df 或者试试可读性比较强的输出格式: $ df -h 部分输出内容: Fi
1. 停止错误(STOP Error):这是最常见的蓝屏错误,它通常以0x开头,后面跟着一串十六进制数字。这种错误通常是由硬件故障、驱动程序问题、操作系统错误或内存问题引起的。
日志的采集、检索和分析是每个业务在架构设计上都需要考虑的重要一环,同时也是痛点较多、人力成本较高的一环。本文将从日志的生命周期开始,分析业界最成熟的ELKB解决方案在接入时和接入后的痛点,并通过在腾讯云ES上接入日志和运维索引的体验,分享腾讯云ES是如何解决这些痛点,来降低日志接入和运维成本,让业务能专注于日志数据价值的挖掘。
Kubernetes v1.24 引入了对非优雅节点关闭[1](Non-Graceful Node Shutdown)的 alpha 支持。此特性允许有状态工作负载,在原节点关闭或处于不可恢复状态(如硬件故障或操作系统损坏)后,故障转移到不同的节点。
说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。
IBM Linux Technology Center (LTC) 成立于 1999 年 8 月,想让 Linux 成功的共同梦想使其与 Linux 开发团体直接合作。它的 200 多名员工使之成为开放源代码开发者的较大团队组织之一。他们提供的代码范围包括,从补丁到结构化的内核改变,从文件系统和国际化工作到 GPL'd 驱动程序。他们还致力于追踪 IBM 内部进行的 Linux 相关开发。
原文链接:https://www.jianshu.com/p/6c222a0832ee
CVM (Cloud Virtual Machine) 是运行在云上的虚拟机.云上环境使其能够自由迁移,具备了规避绝大多数硬件故障的能力.但是由于各种各样的原因,有时候也难免出现软件故障导致无法使用.本文将对常见的 CVM 软件故障进行分析,并介绍快速恢复的办法.
设备故障是指在设备运行中,设备本身性能下降等造成干扰。NB-IOT同频组网下,当小区业务量较大、小区间重叠覆盖较严重时,由于同频的影响,会造成邻区的底噪提升,形成干扰。针对互调干扰,对于中移NB-IOT系统而言,相近频段通信系统频率产生的互调产物落入NB频段的可能性分析如下:
李剑,携程系统研发部技术专家,负责Redis和Mongodb的容器化和服务化工作,喜欢深入分析系统疑难杂症。
Heartbeat 是一个基于Linux开源的高可用集群系统。主要包括心跳服务和资源接管两个高可用集群组件。心跳监测服务可以通过网络链路和串口进行,而且支持冗余链路, 它们之间相互发送报文来告诉对方自己当前的状态,如果在指定的时间内未收到对方发送的报文,那么就认为对方失效,这时需启动资源接管模块来接管运行在对方主机上的资源或者服务。本文简要描述了heartbeat v2集群架构组件及其相关概念,供大家参考。 一、高可用集群的特点 高可用服务 通常使用集群方式实现,这也是集群的最大作用和体现。 其终极目
此篇已收录至《大型网站技术架构》读书笔记系列目录贴,点击访问该目录可获取更多内容。
领取专属 10元无门槛券
手把手带您无忧上云