前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kafka学习一

Kafka学习一

作者头像
路行的亚洲
发布2020-07-16 21:47:30
3140
发布2020-07-16 21:47:30
举报
文章被收录于专栏:后端技术学习

我们先来学习学习kafka的相关概念吧!只有知道了概念,关于kafka的知识我们才会认识得更加清晰。下图是kafka的生产消费图:

在图中我们可以看到有生产者Producer、消费者Consumer、分区Partition、副本Replica、主Leader、从Follower等名称。那我们先来了解这些信息:

  1. Producer:生产者,数据的发布者,将消息发布到kafka的topic中,broker接收到生产者发送的消息后,broker将该消息追加到当前用于追加数据的segment文件中。生产者发送消息,存储到一个partition中,生产者也可以指定数据库存储的partition.
  2. Consumer:消费者,可以从broker中读取数据,消费者可以消费多个topic中的数据.同时每个消费者都属于一个特定的消费组(ConsumerGroup).
  3. Topic:在kafka中,使用一个类别属性来划分数据的所属类,划分数据的这个类成为topic.如果把kafka比作数据库,那么topic就是数据库中的一张表.
  4. Partition:topic中的数据分割为一个或多个partition.每个topic至少有一个partition.每个partition中的数据使用多个segment文件存储,partition中的数据是有序的,partition之间的数据丢失了数据的顺序。如果topic有多个partition,消费数据时就不能保证数据的顺序。在需要严格保证消息的消费顺序的场景下,需要将partition数目设置为1.
  5. Partition Offset:每条消息都有一个当前partition下唯一的64字节的offset,它指明了这条消息的起始位置。
  6. Replicas of partition:副本是一个分区的备份,副本不会被消费者消费,副本只用于防止数据丢失,即消费者不从follower的partition中的消费数据,而是从为leader的partition中读取数据,副本之间是一主多从的关系。
  7. Broker:kafka集群包含一个或多个服务器,服务器节点称为broker.broker存储topic数据。如果topic有N个partition,集群有N个broker,那么每个broker存储该topic的一个partition.如果某topic有N个 partition,集群有(N+M)个broker,那么其中有N个broker存储该topic的一个partition,剩下的M个broker不存储该topic的partition数据。如果某topic有N个partition,集群中broker数目少于N个,那么一个broker存储该topic的一个或多个partition。在实际生产环境中,尽量避免这种情况的发生,这种情况容易导致Kafka集群数据不均衡。
  8. 消息:Record,kafka通信的基本单位,由一个固定的长度的消息头和一个可变长度的消息体构成。在老版本,每一条消息成为Message.
  9. Leader:每个partition都有多个副本,其中有且仅有一个作为Leader,leader是当前负责数据的读写的partition.
  10. Follower:Follower跟随Leader,所有的写请求都通过Leader路由,数据变更会广播给所有的Follower,Follower与Leader保持数据同步。如果Leader失效,则从Follower中选举出一个新的Leader。当Follower挂掉,卡住或者同步太慢,Leader会把这个Follower从“in sync replicas”(ISR)列表删除,重新创建一个Follower.
  11. AR(Assigned Replicas):分区中所有的副本统称为AR.
  12. ISR(In -Sync-Replicas): 所有与Leader部分保持一定程度的副本(包括Leader副本在内)组成ISR.
  13. OSR(out-of-sync-Replicas): 与Leader副本同步滞后过多的副本.
  14. HW(High Watermark):高水位,标识了一个特定的offset,消费者只能取到这个offset之前的消息
  15. LEO(Log End Offset): 即日志末端位移,记录了该副本底层日志(log)中下一条消息的位移值。如果LEO=10,那么表示该副本保存了10条消息,位移值范围[0,9].
  1. Rebalance:重平衡,一种协议,规定了一个Consumer Group下的所有 Consumer 如何达成一致,来分配订阅Topic的每个分区。即给消费组每个消费者分配消费任务的过程。Rebalance不但是启动一个消费者组必经的过程,同时在消费过程中的某些情况下也会发生,造成集群暂时性不可用,影响kafka的高可用。 什么情况下会发生重平衡呢? 订阅主题数发生变化(一般不会发生)、主题分区发生变化、消费端的消费者组成员变化(消费者处理消息超时max.poll.interval.ms、心跳超时heartbeat.interval.ms、session超时 session.timeout.ms)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 后端技术学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档