首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务器增加内存后无法重启数据库的问题及解决 (36天)

前几天生产环境需要做服务器的扩容,把原本64G的内存扩到了128G.然后调整了一些其他的kernel参数,在此基础上需要调整sga的大小,以便分配更多的缓存。...所在的每个服务器只有一个oracle_home,各有两套rac环境在同一个unix账户下。所以我启停数据库的时候也是一套环境一套环境的来。反正节点也不多。...我先是按照要求把sga调整了一下,从20G调整到40G,这样一个服务器两套环境就占用80G,还有68G的空余。...然后准备重启数据库的时候,报了下面的错误。显示内存问题,还有空间的问题,我检查了一把空间情况,没有发现什么问题。 用free -m检查内存使用情况,空余内存还多着呢。...再重启数据库就没有问题了。

3.6K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Greenplum常见问题的分析与处理

    进程数,检查服务器状态是否正常 - gpssh 到所有的服务器,检查是否有starting up进程,如果有重点检查这些实例 8、启动过程卡住--配置文件有问题 1、pg_hba.conf 文件有问题...3、处理方法 - gpstart 会有超时机制,等待一段时间后,会自动报错时推出 - 可以把gpstart 命令内部调用的pg_ctl 命令进程杀掉,可使用kill,不能使用kill - 9 - 修改配置文件后重启启动...9、启动过程卡住--Segment启动问题排查 1、首先凭经验判断,判断本次启动是不是比以往启动过程时间要慢的多 2、检查每台服务器是否正常 - 使用gpssh 连接到所有服务器,查看是否可以连通,如果...-- 故障期间服务器网络有较长时间大流量,把带宽基本用,导致网络输出大量超时。 -- IO性能是否存在问题,故障期间硬盘故障并伴随着大量的IO读写操作,也可以导致mirror响应慢导致超时。...gpexpand.status_detail表中 11、重启数据库 12、执行gprecoverseg -F 对新服务器上的mirror实例进行全量恢复 2、gpexpand 新增segment时一些常见问题处理

    2.8K30

    Greenplum常见问题的分析与处理

    进程数,检查服务器状态是否正常 - gpssh 到所有的服务器,检查是否有starting up进程,如果有重点检查这些实例 8、启动过程卡住--配置文件有问题 1、pg_hba.conf 文件有问题...3、处理方法 - gpstart 会有超时机制,等待一段时间后,会自动报错时推出 - 可以把gpstart 命令内部调用的pg_ctl 命令进程杀掉,可使用kill,不能使用kill - 9 - 修改配置文件后重启启动...9、启动过程卡住--Segment启动问题排查 1、首先凭经验判断,判断本次启动是不是比以往启动过程时间要慢的多 2、检查每台服务器是否正常 - 使用gpssh 连接到所有服务器,查看是否可以连通,如果...-- 故障期间服务器网络有较长时间大流量,把带宽基本用,导致网络输出大量超时。 -- IO性能是否存在问题,故障期间硬盘故障并伴随着大量的IO读写操作,也可以导致mirror响应慢导致超时。...gpexpand.status_detail表中 11、重启数据库 12、执行gprecoverseg -F 对新服务器上的mirror实例进行全量恢复 2、gpexpand 新增segment时一些常见问题处理

    3.7K70

    一次线上 xxl-job 服务异常排查分析

    查看线上的 APM,发现两个异常, 堆内存会定期处于打的状态(被打的都是 Eden Space----校长的定时任务计算任务很大,打满也是正常的,而且看了 GC 次数,young GC 和 old...GC 也没有太大异常)-----挂掉的时刻和正常情况的堆内存几乎是相同的规律,dump 出线上的内存后,查看也没有什么问题,暂时排除是内存问题导致。...堆内存变化如下图所示: 发现重启的服务线程池一直在缓慢的增长,不是很理解,正常的线程池不会一直处于增长的状态,而且增长的数量也很大,线程数量变化如下所示。 2....进入终端,用 arthas 查看服务器线程状态 arthas 进入终端,执行 thread 命令。...既然内存和线程没有发现什么太大的问题,那就从挂的服务的 CPU 看下能不能找到线索。进入终端,top 命令查看 CPU,果然有问题,CPU 已经跑满了,如下所示。

    3.4K41

    CentOS 6.2及最新操作系统部署Hadoop的注意事项

    1  在新机器上将MR业务开启后,导致整个集群都反应很慢,运行的job几乎都被卡住;通过ganglia监控发现,机器的system cpu超过30%,机器几乎是负载的情况。   ...原因分析:   RHEL 6.2和6.3系统中包含了一个新特性,被称为“transparent hugepage compaction”,它和Hadoop负载不能很好的交互。...UserGroupInformation.java:1157) at org.apache.hadoop.mapred.Child.main(Child.java:264)   从上面的日志看,是OOM的错误,不能创建新的进程...但查看该TT机器,内存充足,应该不是内存导致的问题。   ...死锁引起的高负载   解决方法:   方法1:rmmod acpi_pad,重启机器,机器将不支持电源节能;   方法2:在BIOS中开启ACPI支持,重启,更新内核至2.6.32-358.2.1.el6

    28710

    df命令卡住了;umount报错umount.nfs4: dataxxxupload: device is busy

    问题描述 正式环境出现了不能上传图片,图片不能浏览的问题,上正式环境进行排查,在使用df -h命令的时候卡住不动了,其他命令没问题。运行内存以及cpu都是正常的。...正式环境服务器 /data/xxx/upload的目录是进行了nfs挂载 在取消挂载之前找出原挂载方式 [root@node01 ~]# mount -l | grep /data/xxx/upload...尝试使用umount取消挂载但是会卡住不动 当有别的程序正在访问挂载的文件时,也会提示卸载失败,通过 lsof /xxx 查看是哪个进程占用了/xxx,kill -9 $pid ,然后再卸载...~]# umount /data/xxx/upload umount: /data/xxx/upload: not mounted 测试df -h命令是否恢复正常 重新进行挂载 客户端: 重启...nfs: systemctl stop nfs systemctl start nfs 服务器端: 重启nfs、rpcbind systemctl stop nfs systemctl stop rpcbind

    1.5K20

    dnscache服务很关键,我们要警惕一些软件比如openvpn对dnscache服务的注册表的改动

    遇到一例服务器无法访网页的问题:ping IP 是正常的,ping域名会报错找不到IP地址,服务器可以远程,网络本身没有问题,判断属于系统内部问题,尝试下面的命令不行 netsh winsock reset...、eventvwr打不开、浏览器卡住、RDP远程卡住、ping ip是通的、ping域名没有反应、云监控agent报错并丢失基础监控图像、openvpn等业务服务报错、系统服务CryptSvc报错、系统服务...以dhcp服务为例,可以这样调整 sc.exe config dhcp type= own obj= LocalSystem 1703及其之后的系统(即server2019、2022),在≥3.5G内存的机器上...1703之前的低版本系统(2008R2、2012R2、2016),不论内存多大,svchost.exe默认都是耦合模式,即Dnscache、CryptSvc、NlaSvc等关键系统服务是耦合在同一个pid...tasklist /svc|findstr /i "dns cryptsvc" sc.exe queryex DNSCache sc.exe queryex cryptsvc powershell不能的话

    21310

    HDFS 客户端读写超时时间解析

    背景 前段我们Hadoop集群磁盘使用率比较高,部分硬盘空间使用超过了70%,这部分服务器的DataNode服务读写负载就比较高,造成部分数据同步任务因为读写超时而失败。...当NameNode节点处于负载、NameNode所在节点的CPU 100%耗尽时,导致NameNode无法响应,对于新连接到该NameNode的HDFS客户端,能够主备切换连接到另一个NameNode...,进行正常的操作,而对于已经连接到该NameNode节点的HDFS客户端可能会卡住,无法进行下一步操作。...HDFS客户端到NameNode的RPC连接存在keep alive机制,保持连接不会超时,尽力等待服务器的响应,因此导致已经连接的HDFS客户端的操作会卡住。...如果无法等待更长时间,需要重启HDFS客户端所在的应用程序进程,使得HDFS客户端重新连接空闲的NameNode。

    4.2K30

    计划任务定时重启服务或重启机器

    添加一个每隔一段时间就重启服务的计划任务,一句命令搞定计划任务添加 例如 ①每天2点触发后、每隔120分钟(2小时)重启一次远程服务 schtasks.exe /CREATE /ru system /rl...,健壮性一般,最好是通过图形界面 该容易出现意外情况,即重启远程服务是先关闭服务再开启服务的过程,跟重启机器类似,是先关机后开机的过程,如果前半程卡住,后半场是没辙的。...万一不小心卡住了,参考我这个文档解决:https://cloud.tencent.com/developer/article/1933166 健壮的办法是通过UI上的开关按钮控制: 运行sysdm.cpl.../TR "shutdown -r -t 0" /ST 02:00 /RI 1439 /DU 24:00 /f 每天凌晨业务低峰期,计划任务定时重启机器,这个办法特别适合这种场景:机器重启后不到2天,...CPU、内存利用率逐渐跑到百分之八九十甚至跑,业务方不太好定位程序占用资源不断升高的原因,跑时机器hang死,重启后恢复正常。

    3.1K60

    问题排查:nginx能跑,但是只能跑一点点,不能跑多了

    排查 nginx 日志 说实话,当时真的有点无语,因为手里还有别的事,也不想一直耗在这个事情上,但是,我们也不能阻碍测试同事工作开展,这也是份内事。...常规检查 然后就是开始检查系统资源,首先是top,按cpu排序和按内存排序,都没发现很离谱的占用很高的应用。...然后free -h检查了下内存,空闲内存也还很多,8个g,感觉没问题。 然后是磁盘,df一执行,结果直接卡死了,也不知道咋回事,之前就是感觉这机器有问题,之前lsof命令也是执行卡死。...strace查看df阻塞点 之前不是执行df,把我ssh卡死了嘛,我这次想看看到底是哪里卡住了,于是用strace跟踪了下。...但是,把别人配置删了也不合适,那看看能不能恢复nfs吧? 我们先去找服务器管理的同事,结果跟我们说,这个nfs服务器已经被回收了,果然,主打一个混乱。

    38970

    记录一次服务器被CC攻击后的处理过程

    解决问题 因为自己并没有收到腾讯云的安全监控提醒,所以起初想到的是某个程序内存泄漏,把资源跑满了。 事实证明是我错了,有量但是不大的网络攻击占满了带宽,导致服务器无法接受新的请求。...事不随人愿,服务器已经彻底崩溃了,通过在线SSH已经无法连接,然后通过VNC访问,发现服务器已经崩溃,进入了一堆英文的错误界面。...于是乎,只好发送重启命令,跳进入另一个坑。 2.重启服务器 万万没想到,一个重启把整个腾讯云服务器操作页面卡住了(服务器处于Rebooting状态,页面不能进行操作)。...等待了10分钟(刚好抽空进行记录),终于能操作了,满心欢喜连接SSH,卡住,我也愣住。...打开我的葵花宝典:记录自己服务器重启之后,需要重启的服务 默默地修改好,重启了几个重要的服务,一看时间已经半个小时没了... 3.日志分析 分析了所有站点的日志,找到了请求异常的站点,于是乎,先把这个域名解析到

    1.4K20

    linux的nfs端口111,【NFS】NFS设置固定端口,添加防火墙规则

    以前配置的nfs端口一直是通过rpcinfo xx.xx.xx.xx 这个命令查找到需要放行的端口,然后在防火墙中放行这个端口,每次f服务器断电重启之后,都需要重新设置防火墙,我们可以设置固定端口,这样设置固定端口以后即便重启机器也很方便挂载...,如果不设置固定端口,机器或服务重启后之前添加的iptables规则就失效了!...以前开发时就碰到过nfs客户端卡住的情况,umount -f /mnt umount -l /mnt 提示device is busy,并且尝试访问挂载目录、df -h等操作都会使终端卡住,ctrl+c...也不能强行退出。...当NFS服务器不能响应NFS客户端的 hard-mount请求时, NFS客户端会显示:”NFS server hostname not responding, still trying” 参考 NFS

    5.7K20

    GitLab → 搭建中常遇的问题与日常维护

    搭建中遇到的问题   楼主的搭建过程算比较顺利(GitLab → 搭建私有的版本控制的托管服务平台),没有遇到太多问题,只遇到了如下两个问题   安装卡住     这基本是内存不足导致     楼主一开始比较任性...,没按官方的推荐(内存最少 4G)来,弄了个 2G 内存,一顿操作猛如虎,定睛一看原地杵,特么的竟然像泰山一样稳,进度在那一动不动     直接卡住是比较烦的,因为不能直观地看出是否真的是卡住了,还是在安装中...GitLab 所需内存最低为 4G,若服务器配置太低会出现 502 错误   GitLab 新装或重启后,需要等待 1 分钟才能使用     对于单核 CPU 的服务器,Unicorn and Sidekiq...服务启动最少需要一分钟     这个问题楼主没有遇到,因为开始的时候,楼主就给虚拟机分了 4 核 CPU 那么说白了,只要我们的虚拟机(或真实机器)环境足够干净,硬件资源(内存和 CPU)足够好,就不太会出现如上的错误...取消 Sign-up enabled 前的复选框勾选,保存就好了   退出登录后可以发现,登录页的注册功能没了,既然不能注册了,那么就需要通过 root 用户来添加账号了   添加单个账号的话,可以直接通过管理中心来添加

    3.1K20

    Elasticsearch 最佳实践系列之分片恢复并发故障

    由于机器故障,某个节点被重启,此时集群有大量的 unassigned 分片,集群处于 yellow 状态。...立马修改分片恢复并发数到10,通过管控平台一把重启了全部节点,约15分钟后集群恢复正常。接下来会先介绍一些基本的概念,然后再重现这个问题并做详细分析。...一般当集群中某个节点因故障失联或者重启之后,如果集群索引有副本的场景,集群将进入分片恢复阶段(recovery)。...[线程池统计] 此时查询或写入已有索引不受影响,但是新建索引这种涉及到 generic 线程池的操作都会卡住。...如果一端 generic 线程池被这些请求打,发出的请求等待对端返回,而发出的这些请求由于对端 generic 线程池同样的原因被打,只能 pending 在队列中,这样两边的线程池都满了而且相互等待对端队列中的线程返回

    6.7K60
    领券