Kafka 集群部署环境
kafka 集群所用版本 0.9.0.1
集群部署了实时监控: 通过实时写入数据来监控集群的可用性, 延迟等;
----
集群故障发生
集群的实时监控发出一条写入数据失败的报警..., broker和broker, broker和controller之间的通讯也受影响;
这也解释了为什么 实时监控 先报警 然后又马上恢复了: 不和这样不被支持的request同批次处理就不会出现问题...去到__conuser_offsets partition相应的磁盘目录查看,发生有2000多个log文件, 每个在100M左右;
kaka 的log compac功能失效了, 这个问题在之前的文章里有过介绍...: Kafka运维填坑,
log compact相关介绍可以参考 Kafka的日志清理-LogCleaner
手动加速Loading:
即使log cleaner功能失败, 为了加速loading...__consumer_offset都加载完后, 所有group均恢复了消费;
----
总结
对实时监控的报警一定要足够重视;
更新完jar包, 重启broker时, 三台存储__consumer_offsets