首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Regionserver频繁挂掉故障处理实践

导语: 近期腾讯云的一家大客户频繁出现HBase regionserver 挂掉,影响业务正常使用。通过调整堆栈大小、gc优化、超时时间等都无法解决该问题。...但是,regionserver 还是出现了挂掉的情况,只是比之前有改善。因此通过优化堆栈以及gc,并不能完全解决该问题。...三、分析故障原因 既然通过优化hbase本身无法解决regionserver频繁挂掉的原因,那就必须将分析扩大到hbase相关的进程。与hbase密切相关的是zookeeper。...总结原因: (1)gc时间过长,超过40秒的maxSessionTimeout时间,使得zk认为regionserver已经挂掉dead; (2)zk返回dead region到master,master...经过调整zk的tickTime为6秒,相应的zookeeper.session.timeout为120秒,最终解决regionserver 频繁挂掉的故障。

7.9K71
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    KafkaController分析8-broker挂掉Kafka源码分析-汇总

    在实际应用中broker可能因为机器,硬件,网络,进程自身等原因挂掉; 本章我们来看下一个broker挂掉后整个kafka集群会发生什么事情。...---- 挂掉的broker不是集群的Controller 在Kafka集群建立过程分析和KafkaController分析6-Replica状态机我们讲过,KafkaController组件中的ReplicaStateMachine...返回了当前的broker列表信息; val deadBrokerIds = controllerContext.liveOrShuttingDownBrokerIds -- curBrokerIds获取到当前挂掉的...更新KafkaControllerContext.liveBrokers; 回调KafkaController.onBrokerFailure(deadBrokerIds.toSeq); Broker挂掉的逻辑处理...KafkacontrollerContext.partitionLeadershipInfo(这里面保存着当前所有topic的各个partition的leader相关信息),筛选出所有leader为当前挂掉的

    71510

    记一次java进程频繁挂掉问题排查修复

    前言 最近业务部门有个java服务进程会突然无缘无故的挂掉,然后这个服务会产生一堆类似hs_err_pid19287.log这样的日志。...但这个是不是导致java进程频繁挂掉的原因,于是我们做了这么一步,将无法创建ccpp文件的时间点和生成的hs_err_pidxxx时间点做个对比 时间点基本上是吻合的,而且/var/log/messages...综上基本上可以确定是因为无法创建ccpp文件导致,导致该业务的java进程频繁挂掉的原因之一 如何修复 方法一:将ProcessUnpackaged改为yes 这个参数的意思是表示ABRT将非rpm安装程序...systemctl disable abrt-ccpp.service systemctl status abrt-ccpp.service 总结 执行了如上操作,业务部门观察了一段时间,没有再发现java进行频繁挂掉问题

    26910
    领券