这几天很忙,但是我现在给我的要求是一周至少要出一篇文章,所以先拿这篇笔记来做开胃菜,源码分析估计明后两天应该能写一篇。给自己加油~,即使没什么人看。
Kafka只对“已提交”的消息(committed message)做有限度的持久化保证。
已提交的消息 当Kafka的若干个Broker成功地接收到一条消息并写入到日志文件后,它们会告诉生产者程序这条消息已成功提交。
有限度的持久化保证 假如一条消息保存在N个Kafka Broker上,那么至少这N个Broker至少有一个存活,才能保证消息不丢失。
由于Kafka Producer是异步发送的,调用完producer.send(msg)并不能认为消息已经发送成功。
所以,在Producer永远要使用带有回调通知的发送API,使用producer.send(msg,callback)。一旦出现消息提交失败的情况,可以由针对性地进行处理。
消费者是先更新offset,再消费消息。如果这个时候消费者突然宕机了,那么这条消息就会丢失。
所以我们要先消费消息,再更新offset位置。但是这样会导致消息重复消费。
还有一种情况就是consumer获取到消息后开启了多个线程异步处理消息,而consumer自动地向前更新offset。假如其中某个线程运行失败了,那么消息就丢失了。
遇到这样的情况,consumer不要开启自动提交位移,而是要应用程序手动提交位移。
解释第二条和第六条: 如果ISR中只有1个副本了,acks=all也就相当于acks=1了,引入min.insync.replicas的目的就是为了做一个下限的限制:不能只满足于ISR全部写入,还要保证ISR中的写入个数不少于min.insync.replicas。
在0.11.0.0版本引入了创建幂等性Producer的功能。仅需要设置props.put(“enable.idempotence”,true),或props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG,true)。
enable.idempotence设置成true后,Producer自动升级成幂等性Producer。Kafka会自动去重。Broker会多保存一些字段。当Producer发送了相同字段值的消息后,Broker能够自动知晓这些消息已经重复了。
作用范围:
Kafka在0.11版本开始提供对事务的支持,提供是read committed隔离级别的事务。保证多条消息原子性地写入到目标分区,同时也能保证Consumer只能看到事务成功提交的消息。
保证多条消息原子性地写入到多个分区中。这批消息要么全部成功,要不全部失败。事务性Producer也不惧进程重启。
Producer端的设置:
enable.idempotence = true
transactional.id
除此之外,还要加上调用事务API,如initTransaction、beginTransaction、commitTransaction和abortTransaction,分别应对事务的初始化、事务开始、事务提交以及事务终止。 如下:
producer.initTransactions();
try {
producer.beginTransaction();
producer.send(record1);
producer.send(record2);
producer.commitTransaction();
} catch (KafkaException e) {
producer.abortTransaction();
}
这段代码能保证record1和record2被当做一个事务同一提交到Kafka,要么全部成功,要么全部写入失败。
Consumer端的设置: 设置isolation.level参数,目前有两个取值: