数据库服务器故障 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据库服务器主机重启故障诊断分析

摘要：某客户RAC数据库服务器主机轮流发生集群与主机重启，数据库连接不上问题，如下为故障诊断思路....一、故障现象: 告警日志: Sun Feb 09 14:18:42 2020 Auto-tuning: Shutting down background process GTX2 Sun Feb 09...掉，随后一节点的ASM实例挂掉，导致一节点数据库也紧跟着挂掉二、故障原因从15:03开始一节点开始报 voting file所在的磁盘，IO通信有超时的现象，磁盘hang住, 到15.05...IO系统响应缓慢，导致越来越多的请求堆积，最终IO 耗尽，系统内存全部被占用，导致系统失去响应，发生故障。...建议二: 另外在检查中，发现该主机未配置大页，建议配置大页，可以极大提升数据库性能后期调整后至今没有发现主机重启，故障解决。

1.8K0 0

数据库服务器主机重启故障诊断分析

墨墨导读：某客户RAC数据库服务器主机轮流发生集群与主机重启，数据库连接不上问题，如下为故障诊断思路。...从数据库告警日志可以发现，核心进程asmb 在2.9日15.06分突然提示正在终止，随后一节点数据库报错，不能与 ASM通信, 也就是连不上 ASM存储,检查ASM告警日志发现，核心进程ASMB 在2.9...日15.06分被kill 掉，随后一节点的ASM实例挂掉，导致一节点数据库也紧跟着挂掉二、故障原因从15:03开始 ?...IO系统响应缓慢，导致越来越多的请求堆积，最终IO 耗尽，系统内存全部被占用，导致系统失去响应，发生故障。...建议二：另外在检查中，发现该主机未配置大页，建议配置大页，可以极大提升数据库性能后期调整后至今没有发现主机重启，故障解决。

2K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

故障分析 | 数据库故障 MHA 未切换

这里暂且不说 hang 住的原因，仅分析数据库 hang 住，但是 MHA 未触发切换。...connect：在每次执行select 1 as Value前后创建和断开连接，可以发现更多 TCP 连接级别的故障。...注意：此种情况，MHA 监控进程会 fork 出一个子进程进行检测 insert：基于一个到 MySQL 已经存在的连接执行 insert 语句，可以更好检测到数据库因磁盘空间耗尽或磁盘 IO 资源耗尽导致的故障...模拟服务器 CPU 满负载，数据库无法建立新连接编写一个简单的 c 程序，如下： # include int main() { while(1); return 0; } 编译...PS：MHA 监控进程启动过程中，会读取配置文件，对配置文件中的服务器进行一系列检查，包括存活状态、版本信息、从库配置（read_only,relay_log_purge,log-bin,复制过滤等），

1.1K1 0

服务器故障邮件报警

说到服务器硬件监测，用得最多的自然是Zabbix和prometheus，可是对于一般用户来说，部署要求比较高，而且也没有必要。...只是监测服务器硬件故障，并且发生问题的时候，以邮件形式告警，那么服务器自带的功能就足以。比如戴尔服务器的idrac，配置硬件故障的邮件告警就非常简单。...如上图所示，首先填写邮件发送服务器的地址，其次就是填写发件人邮件地址，然后就是SMTP端口号，采用SSL协议的话，端口号就填写465；最后填写用户名和密码，就是发件人的邮件账号和密码。...收件人邮件地址，当然也需要填写，不然故障报给谁呢？然后可以“发送”测试邮件，一般都是秒收，如果没收到，就检查SMTP配置。...我比较关注系统运行状况和存储，尤其是存储，重要的数据都在硬盘里面呢，其他硬件故障，相对来说，没那么重要，电源坏了，可以换，内存坏个一两条，也无伤大雅。硬盘要是坏了，那就损失大了。

2583 0

数据库的故障恢复

在经历了一段时间的忙碌后，终于又能抽出点时间写篇博客了，今天我们介绍一下数据库中的故障恢复，可以说，数据库中事务的ACID特性的保障有很大一部分都源于数据库的故障恢复功能，在数据库的编写代码中，有10%...左右的代码都是关于故障恢复，本文旨在介绍数据库的故障恢复类型以及恢复手段前置知识在了解故障恢复机制之前，我们要先了解一下数据库中数据存储的运行方式，在我们执行插入或者修改语句时，表面上看我们会将数据直接写入磁盘中...数据库故障恢复故障类型数据库的故障主要有以下几个方面：事务故障：该类型故障主要是某一个程序(事务)自身运行错误所引起的故障，它会影响该程序本身系统故障：由于外界因素(掉电、非正常关机)引起的故障...当事务执行对于数据库的操作时，首先会写运行日志，只有当运行日志写入成功后，才会与数据库缓冲区进行数据交换：因此，当系统发生故障时，数据库便可以按照运行日志记录的事务操作顺序分情况进行处理：发生故障时已经结束的事务...，我们会从运行日志的转储点开始对备份文件进行恢复：至此，我们便解决了数据库中的故障恢复，数据库通过事务的撤销与重做、运行日志和备份来进行故障恢复，保证事务的原子性与一致性，提高数据库的可靠性：好了，

2281 0

故障分析 | 数据库服务器内存不足一例分析

0,18 0t0 621086290 /run/systemd/sessions/243335.ref [root@MySQL-slaver ~]# 解决个人觉得可选解决方案如下： 1、服务器上主要服务为

2.9K3 0

服务器硬盘故障预测实践

理论上服役时间越长的服务器发生故障的几率也将越大，从腾讯全网服务器的统计结果也表明服务器老龄化的加剧，故障概率会加速上升，特别是使用年份超过4年的设备故障率将出现陡升的情况，显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后，硬盘故障率都是非常高。 ? 于是乎，想快速有效的降低服务器故障的影响，核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果，我们想要的是即将故障的硬盘，而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置，主要包括服务器类型，上架年限，服务器健康度，业务模块，预测比，坏块比，性能参数等，系统会根据这个设置表，对满足其中任意一条规则的预测故障盘，自动发起故障流程。...成功预测的硬盘故障数量，粗略估算已覆盖SATA硬盘故障数的50%左右，进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

13.7K9 0

IDC服务器故障排除思路

2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤...4、检查电源线、电源开关是否正常5、登录BMC系统，查看设备状态和日志，定位故障服务器部件6、在授权可以关机断电的情况下，重启服务器，查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成...如果最小化可以正常开机，再逐步添加其他部件，通过重启服务器来判断是哪个部件故障。2、替换法当大概知道故障范围时，可以通过1-3个部件逐步替换来查找出具体故障，检查故障现象是否有变化，来确认具体故障点。...通过逐一替换服务器内的疑似故障部件，观察故障现象是否消失，以此定位故障部件。可以先替换比较容易出故障的部件，比如硬盘、内存等。...PS：以上方法，不一定单独使用，可以具体情况具体分析，可以灵活组合使用四、主要配件故障排除思路1、CPU故障1.1、无法开机1）查看服务器的BMC log日志，来定位故障CPU位置2）拆机检查故障位置CPU

1341 0

故障分析：从Oracle数据库故障到Linux nproc算法

墨墨导读：本文来自墨天轮用户“你好我是李白”的投稿，使用root用户切换grid用户时报错-bash: fork: retry: Resource temporarily unava，这里记录故障处理全过程...墨天轮主页：https://www.modb.pro/u/3997 某日，朋友跟我讨论他巡检oracle数据库时遇到的一个情况，在使用root用户切换grid用户时报错-bash: fork: retry...故障背景巡检su – grid无法完成切换，报错 -bash: fork: retry: Resource temporarily unavailable。...环境介绍操作系统为Redhat 6.8，数据库版本为Oracle 11.2.0.4 RAC。...我们经过查看当前服务器线程数，如下： # ps -eLf|grep grid|wc -l 44609 注：当时未注意使用ruser统计真实线程数，所以上述44609实际要比真实grid用户占用的线程大很多

1.2K1 0

数据库PostrageSQL-故障转移

故障转移如果主服务器失效，则后备服务器应该开始故障转移过程。如果后备服务器失效，则不会有故障转移发生。如果后备服务器可以被重启（即使晚一点），由于可重启恢复的优势，那么恢复处理也能被立即重启。...PostgreSQL并不提供在主服务器上标识失败并且通知后备数据库服务器所需的系统软件。现在已有很多这样的工具并且很好地与成功的故障转移所需的操作系统功能整合在一起，例如IP 地址迁移。...一旦发生到后备服务器的故障转移，就只有单一的一台服务器在操作。这被称为一种退化状态。之前的后备服务器现在是主服务器，但之前的主服务器处于关闭并且可能一直保持关闭。...因此，从主服务器切换到后备服务器可以很快，但是要求一些时间来重新准备故障转移集群。从主服务器到后备服务器的常规切换是有用的，因为它允许每个系统有常规的关闭时间来进行维护。...如果你正在规划使用pg_ctl promote进行故障转移，trigger_file`就不是必要的。如果你正在建立只用于从主服务器分流只读查询而不是高可用性目的的报告服务器，你不需要提升它。

9823 0

数据库PostrageSQL-故障转移

故障转移如果主服务器失效，则后备服务器应该开始故障转移过程。如果后备服务器失效，则不会有故障转移发生。如果后备服务器可以被重启（即使晚一点），由于可重启恢复的优势，那么恢复处理也能被立即重启。...PostgreSQL并不提供在主服务器上标识失败并且通知后备数据库服务器所需的系统软件。现在已有很多这样的工具并且很好地与成功的故障转移所需的操作系统功能整合在一起，例如IP 地址迁移。...一旦发生到后备服务器的故障转移，就只有单一的一台服务器在操作。这被称为一种退化状态。之前的后备服务器现在是主服务器，但之前的主服务器处于关闭并且可能一直保持关闭。...因此，从主服务器切换到后备服务器可以很快，但是要求一些时间来重新准备故障转移集群。从主服务器到后备服务器的常规切换是有用的，因为它允许每个系统有常规的关闭时间来进行维护。...如果你正在规划使用pg_ctl promote进行故障转移，trigger_file`就不是必要的。如果你正在建立只用于从主服务器分流只读查询而不是高可用性目的的报告服务器，你不需要提升它。

8713 0

故障排除和本地开发服务器

故障排除以下是一些常见的安装问题，以及建议的解决方法。...仅加载默认页面如果你发现无论你在URL中放入什么内容，只会加载默认页面，可能是你的服务器不支持提供搜索引擎友好URL所需的REQUEST_URI变量。...本地开发服务器 PHP 提供了一个内置的可以在本地使用进行开发的 Web 服务器，免去了安装如 MAMP，XAMPP 等独立 Web 服务器的需要。...如果你在你的开发机器上安装了 PHP，你可以使用 serve 指令来启动 PHP 的内置服务器，完全安装并用于运行你的 CodeIgniter 应用程序。...:8000 这将启动服务器，并且你可以在浏览器中访问 http://localhost:8000 来查看你的应用程序。

3.9K1 0

数据库有故障怎么了？

快速定位能力的关键性真正重要的是，在出现故障时，如何迅速而有效地应对故障，定位故障根因并给出有效的解决方案，这才是确保业务连续性和稳定性的关键。也是决定一款数据库是否成熟的一项关键指标。...聊到数据库的故障，这里先抛开其他除数据库本身之外进而引发数据库故障的复杂情况不说，也暂不去讨论因用户操作使用不当这类导致的故障，就只是单纯的聊下所谓很严重的产品本身bug导致的故障。...数据库有故障怎么了？最后，回到正题，数据库有故障怎么了？...还是那句话，数据库是一个软件，而且是一款非常复杂的软件，遇到故障是再正常不过的，如何迅速而有效地应对故障，定位故障根因并给出有效的解决方案，这才是确保业务连续性和稳定性的关键。...如果说谁家的数据库产品至今为止，都没有任何产品bug导致的故障案例，那并不代表这个数据库产品有多稳定，反而大概率是这个产品的用户量不够，没有积累到足够量的用户去踩到坑而已。

1701 0

GreenPlum数据库故障恢复测试

本文介绍gpdb的master故障及恢复测试以及segment故障恢复测试。...select * from gp_segment_configuration; 4、这里可能需要同步配置一下pg_hba.conf文件，才能通过客户端进行远程连接到这里我们已经完成了master节点的故障切换工作...三、添加新的master standby 1、在225服务器上执行gpstart -a命令启动gpdb数据库的时候报错”error: Standby active, this node no more...当standby 提升为master的时候，原master服务器从故障中恢复过来，需要以standby的角色加入 2、在原master服务器225上的数据进行备份 cd master/ lsgpseg...segment和mirror segment切换 1、首先我们来捋一下当前的数据库环境 Master segment: 192.168.1.227/24 hostname: server227 Stadnby

8333 0

MySQL 数据库高负载故障分析

information_schema下面的表的程序可以考虑关闭下面的参数 innodb_stats_on_metadata=0 set global innodb_stats_on_metadata=0; 故障分析...22222 pt-query-digest 分析mysql慢日志，查看哪些sql语句最耗时 pt-query-digest db-slow.log 总结：有时候不需要全部操作就能找到问题的所在，这次故障中个人是通过...show processlist找到不正常的连接，查看是从哪里连过来的，然后到特定的服务器上，查看指定的那个服务状态是否正常。...故障分析：后端API服务抛异常，导致一个SELECT频繁去执行，先重启后端API，然后分析报错，找相关人解决。

2.2K10 0

Linux服务器故障排查基本方案

服务器架构服务器系统为Centos7 首先需要知晓系统的对外的架构一般架构： 1.域名--->云服务器（ECS） 2.域名--->CDN--->云服务器（OSS） 3.域名--->CDN---...>云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡...--->云服务器ECS+数据库RDS(主从)+缓存Redis 再根据实际情况出现的问题，一步步排查。...ECS服务器负载是否正常、cpu、内存负载是否过高，硬盘使用率是否达到100%等缓存服务器 redis服务器负载是否正常、内存使用率如何数据库服务器数据库连接数是否正常列出当前用户的所有连接信息...= 'Sleep' and time > 2*60 order by time desc; 让将sql语句发给后端研发分析远程连接服务器问题：CPU高，负载高，访问慢（数据库正常）系统层面查看负载

6871 0

查看服务器性能及快速故障定位

查看服务器性能及快速故障定位适应环境 - Linux 连通性 curl...="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项，输出大于等于25分，小于等于26分的访问日志故障定位...0)" -w dst.pcap #过滤出端口为22，且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库服务器是通过

1.6K2 0

15_处理服务器端故障

http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?dis_k=f6e...

9513 0

MySQL数据库故障分析-锁等待(一)

环境说明：MySQL:5.7.34 双主OS:Redhat 7.5问题现象：XXX应用登录，提示数据库连接失败。...----±-----+3 rows in set (0.01 sec)7.打开另一个新的会话4，无法查询数据，被阻塞MySQL [cjc]> select * from t2;卡住8.打开会话5，执行数据库备份

1.1K3 0

服务器故障、网络故障能提早知道？教你一招搞定

在多年的IT外包服务过程中发现，一旦客户的网络或者服务器出现故障，如果我们能比客户先知道，并且迅速响应、解决问题，客户的满意度就会非常高。那么，怎样才能做到服务器故障早知道呢？...在企业的IT基础设施中，服务器的健康状况是至关重要的，特别是Windows服务器，因为它们通常执行关键的业务应用程序。...3.安装过程中，按照提示设置合适的Hostname，填写Zabbix服务器的地址，注意，我习惯用域名来作为服务器地址，这样，当服务器IP变化的时候，就不用修改很多个客户端了，是个省事的好习惯。...随着你对Zabbix功能的深入了解，你将能够更有效地管理和维护你的服务器。比如，Zabbix可以直接监测服务器的硬件性能，就算是服务器重启一下，也会收到邮件。...虽然不一定知道重启的原因，但是如果这个时候，客户跟你说断网了，你就能回答：“路由器重启中，估计3分钟内恢复网络，如果还是有故障，我们会第一时间处理。” 是不是很酷？想来客户一定会很满意的！

1521 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭