一、背景介绍 在实际线上生产环境中,大家可能遇到过BE 宕机的问题,Apache Doris 的BE部分是由C++编写,当出现一些内存越界,非法访问的问题时会导致BE进程的Crash,同时也比较难排查,...手动配置 Service 自动拉起:服务自动拉起 - Apache Doris 3....如果没有堆栈信息,只有一些启动信息的话,可以通过执行dmesg -T 看看是否是OOM,如果是OOM会有Killed的日志: 三、BE Crash排查 BE Crash 后如何排查: 1....如果是已知问题,并且在新版本已经修复,那么可以考虑通过升级解决这个问题 特殊情况 有时候问题比较难复现,排查问题的周期也会比较长,如果问题比较严重,那么对用户业务的影响面还是比较大的,所以有时需要用户环境生成的...首先可以参考官网OOM的分析以及memtracker如何看: BE OOM分析 - Apache Doris: https://doris.apache.org/zh-CN/docs/admin-manual
“本文主要说明一些常见Compaction问题的排查思路和临时处理手段。 如果问题紧急,可联系Doris社区同学处理,若阅读中有问题,可以反馈给Doris社区同学。...建议根据tablet 1GB - 10GB的最佳实践,设置bucket数量 ... 1.3 compaction策略问题 compaction score很高的tablet,却很久没有执行过compaction...'{print $8}' | awk -F\| '{print $1}' | awk -Fms '{print $1}' | awk -F= '{sum+=$2} END {print sum}' Apache...本身问题不在compaction,可以观察下,如何compaction不是持续的失败,并且compaction score没有明显的身高,可以暂不处理,持续观察。...很可能查询也会core,只是没有进行查询,所以通过compaction暴露了这个问题。对于此类core,需要联系社区的同学定位处理。
导读 本文主要分享数据均衡过程中的异常问题排查流程、定位调优和常见FAQ。 一、前提概要 当集群处于以下几种情况时,可参考本文进行问题排查。...BE节点之间的数据不均 单个BE节点上的多个磁盘之间的数据不均 BE节点的上线和下线进度卡死(BE的tablet数量没有变化) 在排查数据均衡问题之前,需要先确认FE的以下几个参数是否正确 --检查方式...enable_disk_balance_for_single_replica --修改命令 admin set frontend config("enable_disk_balance_for_single_replica"="true"); 问题排查的思路按照下方步骤...或者通过搜索Master FE的日志grep "tablet schedule\|TableSch" fe.log|grep tablet_id 当均衡任务失败时,可以根据 常见FAQ 小节进行排查。...均衡速度慢 单个均衡任务分为这几个步骤: 全量拷贝一个新tablet-->对新tablet进行增量拷贝-->对于冗余的tablet进行删除 均衡速度慢怎么排查?
导读 本文本文主要分享Doris中数据副本异常的问题现象、问题定位以及如何处理此类问题。 一、问题现象 1....问题原因 迁移副本过程可能丢version,在2.0.3修复了,或者在数据导入过程中be宕机。...当确定异常tablet_id时,参考如下步骤先进行问题信息收集: 1....如果没问题,就自动修复完成了,不用往下看。如果还是有问题,接着往下看。 2. 重新导数手动修复 如果是多个副本都损坏,并且是分区表的情况下,可以删除这个分区,然后手动重建这个分区,重新导入数据即可。...如果没问题,使用: select count(*) from {table}; 查看是否可读,可读则说明数据副本问题已处理。
本文将分为两部分: 如何配置 Apache 虚拟主机。 如何排查和修复常见的配置错误。 1. Apache 基础配置概述 Apache 的配置文件通常位于 /etc/apache2/ 目录下。...如何排查和修复 Apache 配置错误 在配置 Apache 时,我们可能会遇到一些常见的错误,比如语法错误、权限设置不正确或文件路径错误。接下来,我们将基于以下步骤详细讲解如何排查并修复这些问题。...如果出现错误,Apache 会给出提示,帮助你找到并修复问题。 2.2 解决常见配置问题 问题 1:配置文件中的注释符号问题 Apache 配置文件中,# 是注释符号。...根据错误提示可以快速定位问题。 问题 4:Apache 服务无法启动或重新加载失败 如果修改了配置文件后,Apache 无法重新加载或启动,可能是配置文件的语法问题或端口冲突。...我们还讲解了如何排查和修复常见的配置错误,帮助你快速解决 Apache 服务无法启动或虚拟主机配置问题。
问题背景 最近有同事说平台的某个服务出现超时异常,让我帮忙看下原因。我进入平台后触发了该服务,并没有发现超时异常,那可能是在特定操作场景下会出现或者是一个非必现问题。...既然已知道异常服务,那可以从这里入手进行分析,又与同事沟通一番,确定了与该服务相关的一些后台模块,接下来重点排查这些模块。...下面是出现问题的参考日志,关键点已包含其中,因为原日志不方便展示。 排查方法 日志中出现了sync....问题本质 上面问题的根因是死锁导致的,死锁也是计算机中常见出现的问题。...往往改动代码引发的死锁问题比较容易出现,像本文中出现的问题就是代码改动导致的,添加功能需求的时候关注点集中在了业务逻辑上,容易忽视锁的问题。
jmap -histo pid | sort -n -r -k 2 | head -10
1 查看当前系统的cpu,内存占用情况 [root@localhost ~]# top 2 平均加载时间 [root@localhost ~]# uptime...
当出现异常以后,可以从以下几个原因入手排查。 API或数据结构使用不合理 慢查询。命令slowlog get [n]。 1)使用了复杂读为O(n)的命令导致,如hgetall等。...CPU饱和的问题。...内存交换 网络问题
排查Maven问题 mvn dependency:tree 三大技巧 第一板斧:找到传递依赖的鬼出在哪里?...(这一步非常重要哦,经常项目组pom.xml是相同的,但是就是有些人可以运行,有些人不能运行,俗称人品问题,其实都是IDE的缓存造成的了 idea清除缓存,为了提高效率不建议采用reimport重新起开启项目的方式
日常问题排查-调用超时 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材^_^。 Bug现场 这次的Bug是大家喜闻乐见的调用超时。...开始排查 那么这5秒钟时间到底消失在哪里呢?有3个可能的点: 1)A日志打点到真正发出请求包 2)网络上 3)B真正接收请求包到B日志打点。...可是这又引入了一个新的问题,为什么一次Full GC能达到6s之巨。 为什么这么慢 观察监控,笔者发现Full GC有时候快有时候慢。翻出对应6s的那条gc监控日志。...所以看上去是概率上出现GC慢的问题。 另一个机房没出问题 这时候巧的是,业务开发向笔者反映,另一个机房的相同应用确不会出现此问题。捞了下对应日志,发现其class unloading只有0.9s左右。...另外, 对于一个偶发性的问题,我们应该通过监控等手段去寻找规律,这样就很容易找到突破点。
经过昨天晚上的调试,发现了一个主要问题:使用圆网格标定板标定时,不能使用cornerSubPix()函数,否则寻找角点时,会导致图一的情况(裁剪为30万像素)。就找到能参考的程序,推进还是很快的。...下次把有问题的数据列下。 上面数据均未使用图片校准。 目前这个相机标定程序比较OK,至此棋盘格和圆网格两种标定板。有需要的同志可在公众号后台留言“改进的相机标定程序”。
Get-WindowsUpdateLog执行报错的时候,可以拿日志C:\Windows\Logs\WindowsUpdate\ (压缩成.7z格式)到正常的系统...
一、前言 问题排查过程,源码部分均由我的开发同事排查和记录;在征得其同意后,由我发表在此。...二、问题 某天接到客户反馈,pod的事件中出现大量的 warning event: Readiness probe failed: OCI runtime exec failed: exec failed...三、环境 特别说明:客户在负责运行业务的k8s节点上坚持开启了cpu-manager 组件 版本 k8s 1.14.x 四、排查 1、接到客户反馈后,检查该pod所在节点的kubelet日志,如下...经过排查,发现 runc exec 在运行期间会读取 container 的 state.json,并使用 json decode 时出现异常。 ?...此时排查 runc EOF 和 kubelet cpu-manager update container(默认每 10s 更新一次) 的时间,发现时间点刚好吻合,验证猜想。
问题 近期在开发过程中,突然出现混淆后程序出现运行时异常,编译是正常的,不混淆也是正常的, 错误信息如下提示 12-07 14:10:27.056 10603-10603/?...ZygoteInit.java:888) at com.android.internal.os.ZygoteInit.main(ZygoteInit.java:749) 思路 1、通过上面的错误信息首先会去排查...2、考虑到关闭混淆正常,开启混淆异常,那么就定位到时混淆的问题 3、既然是混淆问题那就查看混淆配置文件proguard-rules.pro,基本的配置都已经防混淆了 4、接下来的思路就是通过反编译来查看...BaseApplication到底出了啥额问题 过程 第一步 我们看到下面反编译的代码 ?...所以以后遇到混淆的问题就按照提示一步一步排查,一定要反编译文件来分析问题,不然无法定位原因。 还有第一次混淆后建议反编译查看一下包里面的代码,有没有需要混淆的核心代码被keep掉了。
线上问题排查总结 Cpu飙高可能的原因 CAS自旋 没有控制自旋次数;乐观锁 死循环----cpu飙高的问题;控制循环次数 云服务器redis被注入挖矿程序;端口像公网暴露;Redis端口不要被外网访问...} },"晓果冻").start(); } } 指定线程名称 创建新的线程的时候最好指定它的名称不然默认的都是Thread-0、Thread-1这样的,指定名称,在排查问题时也方便在直接在项目...中搜索是哪段代码出了问题。...Linux环境下排查cpu飙高的问题 先模拟一种死锁的情况,让cpu飙高 /** * @author 晓果冻 * @version 1.0 * @date 2021/6/23 7:45 */ public...进程号改变是因为我又重启了程序 通过打印出的信息可以在代码中搜索晓果冻线程名来查询到底是哪段代码出了问题
若用户反馈线上服务请求无响应,可以按照以下步骤进行排查。 一、确认服务器内存使用情况 执行free命令,看看服务器内存是否正常。...7919 2106384 [B 7: 17131 1934896 java.lang.Class 如果这里看到有自己写的类对象,那可能就可以找到问题了...七、分析内存溢出问题 确定了是哪一个节点有问题,那么先把节点的流量切走。 如果第六步没分析出来是什么导致内存溢出,可以按如下步骤排查。 1....勾上了会保留不可达对象; 点击 file ---> open heap dump,选择刚才的dump文件,等待几分钟,mat工具会生成一个默认的报告; 默认报告里会列出problems,点击details就可以看到问题详情...,一般会列出有问题的对象; 选择有问题的对象,右键Merge Shortest Paths to GC Roots ---> exclude weak references; 然后再Java Basics
1、top 查看占用资源信息以及pid top 2、查看pid下绑定线程 top -Hp pid1(进程id) 3、拿到需要查询的线程pid,转换成16进制 p...
线上问题排查方法 1 OOM问题 1.1 堆内存OOM 1.2 栈内存OOM 1.3 栈内存溢出 1.4 GC OOM 1.5 元空间OOM 2 CPU100%问题 3 接口超时问题 4 索引失效问题...link: ElasticSearch服务Java内存异常分析和排查解决 https://www.cnblogs.com/oktokeep/p/18205278 1.2 栈内存OOM 出现栈内存OOM问题的异常信息如下...如果生产环境中,出现了这个问题,可以排查一下递归调用是否正常,有可能出现了无限递归的情况。...如果MQ生产者没有批量发送消息,则需要排查MQ消费者的业务逻辑中,哪些地方出现了性能问题,需要做代码优化。...https://skywalking.apache.org/
2.重启kubelet变更宿主状态 kubelet重启后宿主状态从Ready变为NotReady,这个问题相较docker hang死而言,没有那么复杂,所以我们先排查这个问题。...以往针对docker 1.13.1版本的排查都发现了一些线索,但是并没有定位到根因,最终绝大多数也是通过重启docker解决。...因此单纯依赖协程调用链路定位问题这条路被堵死了。 截至目前,我们已经收集了部分关键信息,同时也将问题排查范围更进一步地缩小在containerd-shim与runc之间。...接下来我们换一种思路继续排查。 3.2 进程排查 当组件的运行状态无法继续获取时,我们转换一下思维,获取容器的运行状态,也即异常容器此时的进程状态。...后续 docker hang死的原因远非这一种,本次排查的结果也并非适用于所有场景。希望各位看官能够根据自己的现场排查问题。
领取专属 10元无门槛券
手把手带您无忧上云