首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    故障分析 | binlog flush 失败导致的 Crash

    一、问题现象 某项目上出现 MySQL Crash,相关 errorlog 日志如下,从日志可以看出是 binlog error 导致的问题,但是无法确认具体原因,网上大部分资料都说是由于空间已满导致,...后来在系统日志( /var/log/message)中确实找到了 / 分区空间已满的信息,所以基本可以确认 binlog error 是由于磁盘空间已满导致,进而造成 MySQL Crash。...binlog_error 的异常,导致 MySQL crash!...my: fd: 51 Buffer: 0x7f24c49e9e30 Count: 27 由于/data/tmp磁盘已满,无法写入Count所需的字节数,导致writtenbytes!...时,每个连接都会分配 32MB 的 binlog_cache( 不管你用多少),那么就是将近 10G,很容易导致内存溢出,被系统 OOM。

    1.8K20

    故障分析 | DDL 导致的 Xtrabackup 备份失败

    案例分析 由于客户使用的是我司爱可生的 DMP 数据库管理平台,当备份失败时,在备份目录中会写入一个 FAIL 的标志文件,然后回滚掉残留文件,此时 Xtrabackup 自身的日志已无法查看,不过可以通过...Retry the backup operation 经确认,客户的确是在凌晨执行了 DDL 业务变更,变更的内容为创建一张新表,并给现存的两张表添加字段,加字段的表大约有几百万行记录,这一信息与日志给出的内容吻合...,看来问题大概率是出在加字段的 DDL 操作上 那什么是不记录 redo 的 DDL 的操作呢?...Retry the backup operation dmp2 /data/urman-agent/bin# ## 以上步骤,直接复现了客户生产环境的故障场景 终止脚本 mysql: [Warning...interrupted 小结 默认情况下,即使是 Xtrabackup 高版本,如果备份时并发执行 DDL ,并且没有指定 DDL 锁参数(--lock-ddl,--lock-ddl-per-table),会导致备份失败

    1.2K20

    故障恢复:一次底层超融合故障导致的异常处理

    墨墨导读:底层超融合故障导致数据库产生较多坏块,最终导致数据库宕机。 背景概述 某客户数据由于底层超融合故障导致数据库产生有大量的坏块,最终导致数据库宕机,通过数据抢救,恢复了全部的数据。...下面是详细的故障分析诊断过程,以及详细的解决方案描述: 故障现象 数据库宕机之后,现场工程师开始用rman备份恢复数据库,当数据库alert日志提示控制文件有大量坏块。 ?...-- START DDE Action: 'DB_STRUCTURE_INTEGRITY_CHECK' (Async) ----- Successfully dispatched 发现访问14号回滚段后出现故障...,_corrupted_rollback_segments来屏蔽回滚段。...决定通过一条shell脚本屏蔽所有回滚段,烦不了了! ? 成功打开 ? 后台日志出现undotbs2有坏块,尝试重建undo ?

    81320

    begin backup导致的故障恢复全过程

    墨墨导读:一套19C CDB数据库,存储更换HBA卡宕,本文详述这起begin backup导致的故障恢复全过程。...当时RECOVER DATABASE 提示找不到归档(需要6-18号的归档) 由于有存储相关操作,误以为其它原因导致的问题,没有关注该报错,查询vdatafile,vdatafile,vdatafile_header...切记,任何危险的变更操作都需要备份。做到可回退!!! 咨询公司专家后,确定为某此表空间做了begin backup导致。begin backup后文件头上的checkpoint不再更新。...这时由于之前做了restore cdbroot的操作,控制文件,cdbroot的文件已从备份中还原,导致不能再end backup操作,1个月前的归档已清理,也没办法从6-18开始应用归档。...下面测试重现了该问题,及正确的处理方法。不过19C中并没有人为发起begin backup,需要继续排查什么原因导致。

    74310

    Oracle死锁(ORA-00060)导致的业务故障解决

    1、问题发现 检查客户数据库的时候发现存在大量死锁的情况 Thread 1 advanced to log sequence 257 (LGWR switch)   Current log# 16 seq...,并和业务确定了属于业务SQL lock table pz2018 in exclusive mode 到这里问题已经清楚了,整个逻辑是这样的 241号会话将pz2018全表排他模式进行了锁定,导致4468...会话无法对pz2018表进行insert操作,原因是无法在表上获取共享排它锁即SX锁,导致4468号会话进入等待模式 而4468号会话在等待前进行了insert into pzd2018操作,而241号会话在插入时存在唯一约束...,导致241会话进行TX锁等待,等待4468号session数据提交或者回滚 这样一个环状等待就形成了即死锁 等待发生时会话的等待情况 SQL> select a.sample_time,   2       ...read          ZDCW\WANGH88208561            XCV5(新5.24).exe            INSERT 8 rows selected 3、锁等待的模拟

    1.7K11

    临时存储超限导致的Pod集体驱逐故障排查

    02、排查过程 在上面的故障现象中,我们首先怀疑是微服务出现了问题,因此进行了以下排查: 登录KubeSphere控制台后,我们发现埋点服务的所有Pod副本都是刚刚重新生成的,这意味着Pod副本集体挂了...尽管我们已经找到了故障的原因,但仍需进一步分析以解决上述疑惑。请继续往下看。...因为程序会往Pod的/tmp目录写临时数据,由于密集产生临时文件导致临时存储(ephemeral-storage )使用超限,导致Pod被驱逐(Evicted)。 为什么PDB和优雅停机不生效?...在非自愿中断的情况下,例如节点硬件故障或由于资源压力导致 kubelet 驱逐 Pod,则不受 PDB 控制,所以才导致此次驱逐事件业务感知较大。...Limit限制,如下是官方的文档截图: 05、结 语 通过此次故障的排查和分析,不仅让我们深入了解Pod的驱逐场景,也让我们更加重视临时存储(ephemeral storage)的使用情况,并迅速补充了对

    15110

    (译)Cloudflare 的部署失误导致了全球故障

    这篇博客是个占位符,后续会用完整的检验报告进行替换,来披露今天的发生的问题。 今天有大概 30 分钟,Cloudflare 网站的浏览者收到了 502 错误,起因是我们网络中的 CPU 使用率飙升。...UTC 2009 更新 在今天的 UTC 1342,我们经历了一次全网范围内的故障,所有访问被 Cloudflare 代理的域都显示 502 错误(“Bad Gateway”)。...不幸的是,这些规则中有一条包含了一个正则表达式,导致 CPU 使用率升到 100%。这个 CPU 高峰导致用户看到了 502 错误。最差的情况下有 82% 流量被丢弃。...我们持续的在网络上进行软件部署,用自动系统运行测试,并且有渐进的部署过程来预防事故。很不巧,WAF 规则是一次性的全球部署的,这是今天事故的主因。...我们测试过程的不足导致了这一故障,我们正在审查并更改我们的测试和部署流程,来避免此类问题的再次发生。

    67020

    【go】一次读锁重入导致的死锁故障

    在两天前第一次遇到自己的程序出现死锁, 我一直非常的小心使用锁,了解死锁导致的各种可能性, 这次的经历让我未来会更加小心,下面来回顾一下死锁发生的过程与代码演进的过程吧。...事故现场分析排查问题 上线5天后突然接到服务无法响应的报警,事故发生立即查看了 grafana 的监控数据,发现在极段时间内服务器资源消耗极速增长,然后就立即没有响应了 ?...通过业务监控发现服务在极端的时间打开近10万个 goroutine 之后持续了很长一段时间, cpu 占用和 gc 都很正常, 内存方面可以看出短时间内分配了很多内存,但是没有被释放,gc 没法回收说明一直被占用...这些数据帮助我快速定位确实是有请求发送到服务器,服务器无法响应导致短时间内占用很多文件打开数,导致系统限制无法建立新的连接。...接下来就是查找代码问题了,期间又出现了一次故障,立即重启服务,恢复业务。

    1.3K20

    实践真知:一则因内存导致的集群故障

    故障概述 某天晚上,我方收到行方请求协助分析某数据库两节点RAC数据库问题,问题描述如下: 该 数据库版本为11.2.0.3,该版本中ASM内存管理机制有所变化,导致ASM实例对共享内存的需求加大,由于该数据库...故障分析 从节点2 alert_+ASM2.log日志中看到,12月7日 18:01:50在节点2修改ASM实例内存参数,并于18:04:33重启节点2 ASM实例。...因此进一步观察节点1 crsd进程日志,可以看到在节点2重启集群的过程中,节点1由于ORA-4031错误导致导致ASM实例与存储OCR文件的ASM DATADG交互产生问题。...crsd进程由于ASM实例的ORA-4031错误导致ASM实例与磁盘组之间的交互产生问题,那么我们进一步分析问题时段节点1grid集群alert_csrrac01.log同样可以看到ORA-4031错误导致...故障总结 由于本次ASM内存参数调整,首先更改并重启节点2集群,在此过程中节点1 ASM实例遭遇严重的ORA-4031错误,导致CRSD进程异常,从而引发节点1集群状态异常。

    1K50

    Linux索引节点(inode)用满导致的一次故障

    二、分析问题:   后来用df -i查看了一下/data分区的索引节点(inode),发现已经用满(IUsed=100%),导致系统无法创建新目录和文件。 ?   ...而inode呢,就是用来存储这些数据的信息,这些信息包括文件大小、属主、归属的用户组、读写权限等。inode为每个文件进行信息索引,所以就有了inode的数值。...操作系统根据指令,能通过inode值最快的找到相对应的文件。   而这台服务器的Block虽然还有剩余,但inode已经用满,因此在创建新目录或文件时,系统提示磁盘空间不足。   ...三、查找原因:   /data/cache目录中存在数量非常多的小字节缓存文件,占用的Block不多,但是占用了大量的inode。   ...四、解决方案:   1、删除/data/cache目录中的部分文件,释放出/data分区的一部分inode。

    2.7K20

    一篇 CPU 占用高,导致请求超时的故障排查

    二、定位故障 根据这种故障的一般处理思路,先找出问题进程内CPU占用率高的线程,再通过线程栈信息找出该线程当时在运行的问题代码段,操作如下: 根据思路查看高占用的“进程中”占用高的“线程”,追踪发现7163...将16298的线程ID转换为16进制的线程ID。 printf "%x\n" 16298 3faa 通过jvm的jstack查看进程信息,发现是调用数据库的问题。...确认表中数据量,发现表中已经有将近300万条数据,判断问题是查询时间过长导致的,使用的命令如下: use databases_name; select count(1) from table_name...show create table table_name; 四、结果 处理后进程的CPU占用到了40%,本次排查主要用到了jvm进程查看及dump进程详细信息的操作,确认是由数据库问题导致的原因,并对数据库进行了清理并创建了索引...,还会导致buffer失效,通常的优化方法还是添加索引。

    1.9K50

    故障分析 | TCP 缓存超负荷导致的 MySQL 连接中断

    1背景 在执行跑批任务的过程中,应用程序遇到了一个问题:部分任务的数据库连接会突然丢失,导致任务无法完成。...客户端发送或接收的数据包大小超过了 max_allowed_packet 参数的值,导致连接中断。 客户端试图访问数据库,但没有权限,或者使用了错误的密码,或者连接包不包含正确的信息。...我们猜测可能是网络有异常,导致客户端接收不到服务器返回的 ACK 包,所以服务器会反复发送 ACK 包,直到超时或收到客户端的响应。但是,经过网络人员的排查,未发现有明显的问题。...60 秒内未把缓存中的数据处理掉,导致 MySQL 往客户端发送数据超时。...4优化建议 业务层面进行分批处理数据,避免单个 SQL 从服务器获取大量的数据,导致客户端的 TCP 缓存不足。

    33410

    故障分析 | 一个因 SSL 配置导致的复制异常报错

    ---- 1故障背景 在做 MySQL 同构的数据迁移过程中,我们通常只需要按流程搭建主从保持数据同步即可。一般构建复制只要网络没问题,基本都能顺利构建成功。而这次踩了一个小坑,记录一下。...同事反馈做完 change master 后,IO 线程始终显示连接不上主库,已经反复确认该复制账号的权限、账号密码都没问题,且也验证了通过 MySQL 客户端的命令行输入相同的账号密码能正常连接到主库...,已经做了以下场景的排除工作: 排除了账号密码错误的问题 排除了账号权限不足的问题 排除了网络不通的问题 2故障分析 通过源端主库的错误日志也能持续观测到该复制用户频繁的尝试连接但都失败,错误日志的报错仅告知用了密码但访问受限...,比较常规的报错信息。...retries: 1 message: Access denied for user 'repl'@'10.186.61.27' (using password: YES) 3问题复现 尝试复现验证是否为该属性导致

    28720

    Redis进阶 - 因异常断电导致的Redis Cluster Fail故障处理

    Pre 测试环境,搭建的伪集群 101 : 7001 7002 7003 三个节点 102 : 7004 7005 7006 三个节点 机房异常断电,主机宕机~ ---- 现象 Redis Cluster...这是对集群完整性的一种保护措施, 保证所有的槽都指派给在线的节点。 可以看到 slot 有未分配的情况, 那如何重新分配这些slots 便是解决问题的关键。...---- 查找未指派的slots 方式一 cluster slots 172.168.15.101:7001> CLUSTER SLOTS 1) 1) (integer) 5461 2) (integer...随后分析一下 ~~~ ---- 计算未指派的slots ,重新添加 看7003 这个master 后面的slot分布情况 5461-5591 5593-5783 5785-5913 5915-6157...Reason - cluster_state:fail 连上7002端口 (一定要上7002上看,不要再其他端口查看节点信息),重复刚才的操作 。 期间重启了几次节点 ,故障恢复 。

    2.4K31

    一次有趣的 DNS 导致 Node 服务故障问题分析实录

    发起的地方,有日志为证,也就是 http 库的函数的调用是有实际发生的,但是为什么没有请求,甚至没有建连。...有几种可能,一种可能是连接池满了,这种情况下,http 调用 block 在连接池的获取处,但是经过 netstat 查看一个连接都没有,排除了连接池满导致的问题。...这样就可以避免出现 SlowIO 任务把所有的线程池占满,导致其它类型的任务没有机会执行。...那是不是这个域名的请求,一直没有正确结果的返回,导致占满了 SlowIO 的 2 个线程呢?...域名解析迟迟没有返回,把 Node 内部的 libuv 的两个 SlowIO 线程占满,导致后续所有的 DNS 请求都无法继续进行下去。

    78730
    领券