“本文主要说明一些常见Compaction问题的排查思路和临时处理手段。
如果问题紧急,可联系Doris社区同学处理,若阅读中有问题,可以反馈给Doris社区同学。
找出score最高的若干个tablet,一般是用户比较高频导入的表,分析score最高的tablet形成的原因,以下几个为常见的原因:
判断方式:


处理方式:参照第2节进行处理
例如:
compaction score很高的tablet,却很久没有执行过compaction。
判断方式:

处理方式:
curl -X POST http://be_host:webserver_port/api/compaction/run?tablet_id=xxxx\&compact_type=cumulative
Compaction score比较高的tablet的rowset 布局,获取方式:
curl ip:port/api/compaction/show?tablet_id=${tablet_id}
这里又分为两种情况:
可能是compaction的并发不够,需要调整下面这些配置(根据情况修改)
max_base_compaction_threads 默认是4
max_cumu_compaction_threads 默认是每个盘1个
compaction_task_num_per_disk,默认是4
compaction_task_num_per_fast_disk,默认是8
判断方式:
SelectDB Cloud使用这个命令:
grep -i compaction be.INFO | grep -i finish | awk '{print $8}' | awk -F\| '{print $1}' | awk -Fms '{print $1}' | awk -F= '{sum+=$2} END {print sum}'
Apache Doris使用这个命令:
cat be/log/be.INFO | grep -E "succeed to do base compaction|succeed to do cumulative compaction" | awk '{print $23}' | awk -F= '{print $2}' | awk -Fs '{sum+=$1} END {print sum}'
处理方式:
这种现象之前出现的比较多,单独列出来,这是一个现象,原因可能还是上述的一种,针对此现象有一个临时的处理手段,如果对报-235的表没有频繁的导入和查询,可以适当调大max_tablet_version_num。
这只是一个临时手段,还是要找到compaction score升高的原因:
max_tablet_version_num,默认值是2000
通过如下方式查看compaction失败的具体原因:
grep compaction be.INFO | grep {tablet_id}
原因包括但不限于,内存分配失败,compaction数据校验失败。
内存分配失败会有类似一下日志:
W0427 19:40:58.254163 7873 compaction.cpp:372] fail to do CloudBaseCompaction. res=[MEM_LIMIT_EXCEEDED]PreCatch error code:11, [E11] Allocator sys memory check failed: Cannot alloc:5148, consuming tracker:<BaseCompaction:135202205>, peak used 1435738416, current used 1164740816, exec node:<>, process memory used 105.03 GB exceed limit 109.63 GB or sys available memory 11.71 GB less than low water mark 12.18 GB.
no enable stack, _FILE:/home/ec2-user/selectdb-core/be/src/olap/rowset/segment_v2/segment_iterator.cpp, __LINE:2000, __FUNCTION_:auto doris::segment_v2::SegmentIterator::next_batch(vectorized::Block *)::(anonymous class)::operator()() const, tablet=135202205.758764227.6e8b36c0cc1b4ac2-9f14bb5b6d058fe6, output_version=[2-8237]
内存问题又分为以下几种情况:
对于上述细分的原因需要查看memtracker,当前compaction内存使用的情况来定位。

if (_input_row_num != _output_rowset->num_rows() + _stats.merged_rows + _stats.filtered_rows) {
return Status::Error<CHECK_LINES_ERROR>(
"row_num does not match between cumulative input and output! tablet={}, "
"input_row_num={}, merged_row_num={}, filtered_row_num={}, output_row_num={}",
_tablet->tablet_id(), _input_row_num, _stats.merged_rows, _stats.filtered_rows,
_output_rowset->num_rows());
}
compaction本身占用内存不多,BE其他的请求(比如导入,查询)占用了过多的内存,导致的compaction偶发失败。
本身问题不在compaction,可以观察下,如何compaction不是持续的失败,并且compaction score没有明显的身高,可以暂不处理,持续观察。
单个compaction占用内存多。
可以暂时通过限制参与compaction的rowset个数来限制compaction的使用,调节BE的cumulative_compaction_max_deltas这个配置值,默认是1000
多个compaction占用内存多。
可以暂时通过限制参与compaction的rowset个数来限制compaction的使用,调节BE的cumulative_compaction_max_deltas这个配置值,默认是1000
或者,可以通过限制compaction线程的个数来限制内存,be对应配置,max_base_compaction_threads和max_cumu_compaction_threads
可能是正确性问题,需联系Doris社区同学定位处理。
top -H 确认是否是compaction线程

处理方式
处理方式1:
可以调整做compaction的线程数量
max_base_compaction_threads,默认是4
max_cumu_compaction_threads,默认每块盘1个
处理方式2:
可以调整每个盘上compaction的并发数量
如果配置的是HDD盘,调整compaction_task_num_per_disk,
如果配置的是SSD盘,调整compaction_task_num_per_fast_disk
compaction_task_num_per_disk,默认是4
compaction_task_num_per_fast_disk,默认是8
调节完,要主要观察compaction score的变化,防止出现compaction并发限制的太小,导致的compaction score升高的问题
参考第二节关于内存超限导致compaction失败的处理方式。
分情况处理:
收集be.out,BE.info,core dump,be版本信息(包括具体的commit id),判断是否有特殊的操作,比如scheam change等操作,然后联系Doris社区同学。
这种情况可能会影响用户的可用性,可以先止损。关掉这个表的compaction:
虽然core在compaction的栈上,但是很可能不是compaction的问题,因为compaction是一个后台的不断进行的读写线程,不断的触发读写。很可能查询也会core,只是没有进行查询,所以通过compaction暴露了这个问题。对于此类core,需要联系社区的同学定位处理。