首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

最佳实践:巧妙kill CRS进程而不导致主机重启

我们都知道,在RAC环境中,如果kill ocssd.bin进程,会引起主机重启。 但是有时候系统已经异常了了,且CRS不能正常关闭,而主机可能是几年没重启的老系统,没人敢重启,现在怎么办?...我们只能尝试手工kill进程的方式,然后手工修复CRS(注意,在10.2 RAC中,只有3个d.bin进程)。...然后,我们kill 监听: 我们看到,刚才kill的进程都被重启了,11.2的RAC真强悍啊。...了: 现在我们kill 传说中一旦被kill就会引起主机重启进程 ocssd.bin : 好了,我们的系统都还好好的,没有重启,资源也都释放干净了: 如果要恢复,很简单,只要直接重启crs就ok了:...测试证明,只要先kill cssdmonitor 和 cssdagent进程(准确的说是cssagent),再kill ocssd.bin进程,系统是不会重启的。

2K100

rac节点频繁重启的问题分析

环境:两台联想R680的物理机搭建一套2节点RAC,数据库版本为ORACLE 11.2.0.4 一、故障问题现象: 节点2频繁发生重启,从1月至2月发生多次重启,甚至一天内3次重启,让人头疼。 ?...此时判断:node 2 节点老是频繁重启,私网出问题的概率会较大,因此从网络处查。node 2 每次重启完以后,都能顺利加入rac集群,更不是时间同步的问题。 ...网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息,以确认各个节点是否正常。...磁盘心跳:ocssd.bin进程每秒钟都会向所有表决盘(Voting File)注册本节点的状态信息,这个过程叫做磁盘心跳。...一般来说大内存的服务器容易出现内存上的问题,现在内存控制器都是集成在cpu里,内存的校验错误和CPU的问题易引起服务器重启。 好了,下面我们看看MCELOG日志的错误提示 ?

1.5K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Oracle 集群心跳及其参数misscountdisktimeoutreboottime

    在Oracle RAC中,可以从多个层次,多个不同的机制来检测RAC的健康状况,即可以通过心跳机制以及一定的投票算法来隔离故障。...本文主要描述了Oracle RAC下的几种心跳机制以及心跳参数的调整。...使用Oracle用户来运行该进程并提供节点成员管理功能,一旦该进程失败,将导致节点重启。CSS服务提供2种心跳机制,一种为网络心跳,一种为磁盘心跳。...节点一旦被隔离之后,在11gR2之前通常是重启故障节点。而在11gR2中,ClusterWare会首先尝试关闭该节点的所有资源,尝试对集群中失败的组建进行清理,即重启失败的组件。...如果清理失败的组件未成功,为了强制清理,则再对节点进行重启

    1.2K10

    循序渐进:Oracle 11.2 RAC集群进程的初始化与启动过程

    从11.2 GI(Grid Infrastructure)开始,Oracle RAC的结构跟10.2有翻天覆地的变化,深入了解集群的初始化过程,有助于我们理解RAC的工作原理,本文为大家阐释RAC集群的引导过程...集群中大量 d.bin 进程之间的依赖关系(也就是启动和关闭,谁启动重启谁等等)(点击文末原文链接,直达大图): ---- ---- 从CRS的启动过程,我们也可以清晰的看到进程的启动顺序。.../etc/init.d/init.ohasd 进程就是重启 /u01/app/11.2.0.3/grid/bin/ohasd.bin 进程的守护进程。...mdnsd.binroot 4452 3507 0 20:37 pts/2 00:00:00 grep d.bin [root@dm01db01 ~]# 然后是增加了 ocssd.bin...在启动ocssd.bin以后,就会启动 octssd.bin : 接下来,启动evmd.bin: 然后是crsd.bin 和 tnslsnr: 当crsd.bin启动后,就可以使用crsctl status

    2.4K80

    浅谈Oracle RAC(10)- RAC DB特有进程

    3.LMON 这个进程存在于每个RAC数据库节点实例中,是RAC数据库维护数据库集群层面实例关系的主要进程。...完成这项任务的进程则是LMS进程。 可以说这个进程RAC DB内存融合体系中最繁忙的进程,所以LMS进程的优先级为RT(CPU资源优先分配给LMS),每个实例中可以存在复数个LMS。...比如某4核CPU的服务器,装有2套RAC数据库的2个实例,那么2个实例中设定的LMS的总数不能大于4....因为LMS的个数和性能会严重影响到SQL性能,所以RAC数据库要求各个节点的服务器硬件配置要一致。...8.ASMB RAC DB数据库实例和ASM实例中存在的进程。DB数据库实例中的ASMB进程是用来与ASM实例进行连接通信的进程

    1.1K20

    mysql服务器重启, 却有2个mysqld进程 ?

    忘记这是案例几了...问题现象昨晚变更完后, 关闭mysql数据库, 然后重启OS(kylin可能有swap问题, 遇到2次了.得手动到后台强制重启OS)后, 检查发现mysqld进程有2个.说明: 本文所有截图均为测试环境截图....我这里是使用centos模拟的, 真实环境的父进程是 1分析这种现象, 显然是mysqld启动了2次....所以可以确定确实有2个mysqld在启动.因为是在/etc/rc.local中配置的开机自启, 所以999进程的mysqld_safe和3199进程的mysqld才是我们设计内的自启进程....那么PID:1085的进程是水启动的呢?...询问相关人员,发现是沟通问题导致的,于是开发就把mysql的启动也加进去了...解决办法注释掉非标准的mysql启动, 然后重启mysqld服务(建议重启下OS,怕还有其它地方也有这种脚本....)

    1310

    浅谈Oracle RAC(5)– CSS组件

    编者按: 本文作者系肖遥(花名),现任甲骨文技术支持工程师 ,目前专注于Oracle RAC领域。...集群首先会去尝试停止所有的IO capable 进程。一旦所有的IO进程被清除,其它的进程也会被停止。...当所有的进程被停止之后,GI会设定一个"restart flag"的标签,然后通过重启OHASD来重启集群,这就是Rebootless机制。 所以我们可以总结一下节点排除时发生OS重启的场景。...1 Rebootless在进行时CSSD本身发生预想不到的例外而被kill时,OS会被重启。 2 当IO capable 进程无法清除时,传统的节点重启方法将被启用,OS会被重启。...如果一旦发生OS重启或者rebootless,我们应该还是更多关注于实际问题本身,纠结于rebootless发生的机制通常是没有更多意义的。 7.补充材料 上面我们提到了ocssd.bin的一些线程。

    99930

    RAC一个节点自动重启问题分析

    题记:在RAC数据库的故障当中,节点重启的现象很常见,在这种问题的处理当中,有一定的规律性。为了更好的说明这个问题的处理过程,保证出现该类问题的时候,能够有序的进行处理,特编写此文档。...-->由oprocd导致的节点重启。 如果在oprocd日志中出现以下信息,则表明节点重启是由oprocd进程导致。...重启需要在指定的时间(reboot time,一般为3秒)内完成。 网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息,以确认各个节点是否正常。...磁盘心跳:ocssd.bin进程每秒钟都会向所有表决盘(Voting File)注册本节点的状态信息,这个过程叫做磁盘心跳。...2、oclsomon:这个进程负责监控ocssd是否挂起,如果发现ocssd.bin存在性能问题,则重启该节点。

    87730

    数据库服务器主机重启故障诊断分析

    摘要:某客户RAC数据库服务器主机轮流发生集群与主机重启,数据库连接不上问题,如下为故障诊断思路....asmb 在2.9日15.06分 突然提示正在终止,随后一节点数据库报错,不能与 ASM通信, 也就是连不上 ASM存储,检查ASM告警日志发现,核心进程ASMB 在2.9日15.06分 被kill 掉...:03开始 一节点开始报 voting file所在的磁盘,IO通信有超时的现象,磁盘hang住, 到15.05分开始 ocr_vote磁盘离线,一节点被剔出集群, 后续检查主机,发现主机重启过...,检查操作系统日志,发现从15.02分开始,: INFO: task ocssd.bin:16080 blocked for more than 120 seconds....建议二: 另外在检查中,发现该主机未配置大页,建议配置大页,可以极大提升数据库性能 后期调整后至今没有发现主机重启,故障解决。

    1.8K00

    数据库服务器主机重启故障诊断分析

    墨墨导读:某客户RAC数据库服务器主机轮流发生集群与主机重启,数据库连接不上问题,如下为故障诊断思路。...从数据库告警日志可以发现,核心进程asmb 在2.9日15.06分 突然提示正在终止,随后一节点数据库报错,不能与 ASM通信, 也就是连不上 ASM存储,检查ASM告警日志发现,核心进程ASMB 在2.9...后续检查主机,发现主机重启过,检查操作系统日志,发现从15.02分开始,: INFO: task ocssd.bin:16080 blocked for more than 120 seconds....=20 vm.dirty_background_ratio=3 目前操作系统配置文件/etc/sysctl.conf 中 没有这两个参数 ,建议调整,sysctl -p 生效,(调整该操作系统参数不用重启主机...建议二: 另外在检查中,发现该主机未配置大页,建议配置大页,可以极大提升数据库性能 后期调整后至今没有发现主机重启,故障解决。

    2K10

    RAC一个节点自动重启问题分析

    题记:在RAC数据库的故障当中,节点重启的现象很常见,在这种问题的处理当中,有一定的规律性。为了更好的说明这个问题的处理过程,保证出现该类问题的时候,能够有序的进行处理,特编写此文档。...-->由oprocd导致的节点重启。 如果在oprocd日志中出现以下信息,则表明节点重启是由oprocd进程导致。...重启需要在指定的时间(reboot time,一般为3秒)内完成。 网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息,以确认各个节点是否正常。...磁盘心跳:ocssd.bin进程每秒钟都会向所有表决盘(Voting File)注册本节点的状态信息,这个过程叫做磁盘心跳。...2、oclsomon:这个进程负责监控ocssd是否挂起,如果发现ocssd.bin存在性能问题,则重启该节点。

    1.4K50

    Android Service重启恢复(Service进程重启)原理解析

    启动的,binderSertvice是通Activity显示界面相关的,如果两者统一进程,binderSertvice的影响可以忽略,如果不是同一进程,Service会被重启,毕竟业务都没了,Service...Intent(重启可能比较慢) 除了上面的情况,基本都不重启,启动分析完成,场景构建完毕,下面看看如何恢复的,假设APP被后台杀死了,Service(以及进程)如何重启的呢?...-- 超过两次的要避免再次重启Service,但是进程还是会被唤醒 如果是系统应用则无视,仍旧重启--> if (allowRestart && sr.crashCount >= 2...,要至少10s后才重启下一个,如果第一个Service就重启成功,同时进程也启动成功,那么所有的Service都会被立刻唤起,而不需要等到真正的10秒延时间隔。...可以用来做包活,但是不推荐,而且国内也不怎么好用(MIUI、华为等都对AMS做了定制,限制较多) 作者:看书的小蜗牛 Android Service重启恢复(Service进程重启)原理解析 仅供参考

    5.5K40

    oracle rac节点不能启动报“has a disk HB, but no network HB”的错误

    (Doc ID 2519544.1) :原因是服务器启动了安全类的软件或中病毒了,需要将安全类的软件停止才可以。...节点进程gipcd.bin存在异常:gipcd.bin进程负责管理集群中所有的私有网卡,有一定原因是由于正常节点1服务器进程出现异常,导致节点2服务器集群HAIP一直处于starting,cssd进程无法启动...1) 手动终止节点1的gipcd.bin进程,kill之后发现集群会自动将此进程拉起,无需重启节点1的集群服务 2) 重启节点2集群服务,集群状态恢复正常,问题解决,由此判断此故障是由于正常节点集群gipcd.bin...其他解决方案 导致节点2启动失败的可能原因有很多,如果上述方案无法解决,可参考以下方案: a) 关闭正常节点1集群服务,先重启节点2集群服务再重启节点1集群服务(结果发现我的环境,节点1启动不起来,就是同时只能有...-init,或禁用HAIP d) 重启两台服务器

    1.9K70

    守护进程、信号和平滑重启

    平滑重启 swoole是常驻内存的,若想让修改后的代码生效,就必须Ctrl+C,然后再重启server。对于守护进程化的server呢?则需kill掉后,再重启。...swoole为我们提供了平滑重启机制,我们只需要向swoole_server的主进程发送特定的信号,即可完成对server的重启。...平滑重启包含的信号 SIGTERM,一种优雅的终止信号,会待进程执行完当前程序之后中断,而不是直接干掉进程 SIGUSR1,将平稳的重启所有的Worker进程 SIGUSR2,将平稳的重启所有的Task...进程 pstree | grep server_process #找出主进程 kill -TERM 55559 #优雅终止主进程 kill -USR1 55559 #热重启worker进程,onWorkerStart...回调之后加载的文件,重启才有意义 kill -USR2 55559 #热重启task进程,onTask回调之后加载的文件,重启才有意义 要加载的文件 (Person.php) ~~~ class Person

    1.1K10

    守护进程、信号和平滑重启

    平滑重启 swoole是常驻内存的,若想让修改后的代码生效,就必须Ctrl+C,然后再重启server。对于守护进程化的server呢?则需kill掉后,再重启。...swoole为我们提供了平滑重启机制,我们只需要向swoole_server的主进程发送特定的信号,即可完成对server的重启。...平滑重启包含的信号 SIGTERM,一种优雅的终止信号,会待进程执行完当前程序之后中断,而不是直接干掉进程 SIGUSR1,将平稳的重启所有的Worker进程 SIGUSR2,将平稳的重启所有的...Task进程 pstree | grep server_process #找出主进程 kill -TERM 55559 #优雅终止主进程 kill -USR1 55559 #热重启worker进程,...onWorkerStart回调之后加载的文件,重启才有意义 kill -USR2 55559 #热重启task进程,onTask回调之后加载的文件,重启才有意义 要加载的文件 (Person.php)

    1K10

    关于linux服务器进程监控及自动重启的简单方案

    实现原理主要是使用linux提供的crontab机制,定时查询服务器进程是否存在,如果宕机则处理我们预设的脚本。 首先我们要向crontab加入一个新任务。...#获取进程数量 if [ $number -eq 0 ] #如果进程数量为0 then #重新启动服务器,或者扩展其它内容。.../WorldFrame_d -c 1 fi 我这个脚本,只是简单的检测了进程是否存在,不存在就自动重启服务器。 这里其实也可以扩展一下,比如对日志文件的处理以及重启时间等的记录等等。...补充,今天测试的时候发现有时候不执行,跟踪后发现crontab进程出现错误,重启一下就ok了。 使用下面的命令查看crond的状态。...我今天出现了crond dead but subsys locked #service crond start 服务重启后问题解决。

    3.7K20
    领券