前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >1.Kafka简介

1.Kafka简介

作者头像
每天进步一点点
发布于 2022-07-27 02:24:34
发布于 2022-07-27 02:24:34
3010
举报
文章被收录于专栏:IfDataBigIfDataBig

一、简介

ApacheKafka 是一个分布式的流处理平台。它具有以下特点:

  • 支持消息的发布和订阅,类似于 RabbtMQ、ActiveMQ 等消息队列
  • 支持数据实时处理;
  • 能保证消息的可靠性投递;
  • 支持消息的持久化存储,并通过多副本分布式的存储方案来保证消息的容错;
  • 高吞吐率,单 Broker 可以轻松处理数千个分区以及每秒百万级的消息量。

二、基本概念

2.1 Messages And Batches

Kafka 的基本数据单元被称为 message(消息),为减少网络开销,提高效率,多个消息会被放入同一批次 (Batch) 中后再写入。

2.2 Topics And Partitions

Kafka 的消息通过 Topics(主题) 进行分类,一个主题可以被分为若干个 Partitions(分区),一个分区就是一个提交日志 (commit log)。消息以追加的方式写入分区,然后以先入先出的顺序读取。Kafka 通过分区来实现数据的冗余和伸缩性,分区可以分布在不同的服务器上,这意味着一个 Topic 可以横跨多个服务器,以提供比单个服务器更强大的性能。

由于一个 Topic 包含多个分区,因此无法在整个 Topic 范围内保证消息的顺序性,但可以保证消息在单个分区内的顺序性。

2.3 Producers And Consumers

1. 生产者

生产者负责创建消息。一般情况下,生产者在把消息均衡地分布到在主题的所有分区上,而并不关心消息会被写到哪个分区。如果我们想要把消息写到指定的分区,可以通过自定义分区器来实现。

2. 消费者

消费者是消费者群组的一部分,消费者负责消费消息。消费者可以订阅一个或者多个主题,并按照消息生成的顺序来读取它们。消费者通过检查消息的偏移量 (offset) 来区分读取过的消息。偏移量是一个不断递增的数值,在创建消息时,Kafka 会把它添加到其中,在给定的分区里,每个消息的偏移量都是唯一的。消费者把每个分区最后读取的偏移量保存在 Zookeeper 或 Kafka 上,如果消费者关闭或者重启,它还可以重新获取该偏移量,以保证读取状态不会丢失。

一个分区只能被同一个消费者群组里面的一个消费者读取,但可以被不同消费者群组中所组成的多个消费者共同读取。多个消费者群组中消费者共同读取同一个主题时,彼此之间互不影响。

2.4 Brokers And Clusters

一个独立的 Kafka 服务器被称为 Broker。Broker 接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘保存。Broker 为消费者提供服务,对读取分区的请求做出响应,返回已经提交到磁盘的消息。

Broker 是集群 (Cluster) 的组成部分。每一个集群都会选举出一个 Broker 作为集群控制器 (Controller),集群控制器负责管理工作,包括将分区分配给 Broker 和监控 Broker。

在集群中,一个分区 (Partition) 从属一个 Broker,该 Broker 被称为分区的首领 (Leader)。一个分区可以分配给多个 Brokers,这个时候会发生分区复制。这种复制机制为分区提供了消息冗余,如果有一个 Broker 失效,其他 Broker 可以接管领导权。

参考资料

Neha Narkhede, Gwen Shapira ,Todd Palino(著) , 薛命灯 (译) . Kafka 权威指南 . 人民邮电出版社 . 2017-12-26

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IfDataBig 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大数据--kafka学习第一部分 Kafka架构与实战
每个集群都有一个broker是集群控制器(自动从集群的活跃成员中选举出来) 控制器负责管理工作: 将分区分配给broker 监控broker 集群中一个分区属于一个broker,该broker称为分区首领。 一个分区可以分配给多个broker,此时会发生分区复制。 分区的复制提供了消息冗余,高可用。副本分区不负责处理消息的读写。
用户2337871
2021/01/13
6550
大数据--kafka学习第一部分 Kafka架构与实战
都说Kafka牛3万字带你全面掌握kafka
系统间的耦合高怎么办,我们如何不让一个服务过于庞大,一个好的方式就是依据具体的功能模块拆分服务,降低服务的耦合度,服务间的交互可以通过消息传递数据来实现,除此之外Kafka非常适合在线日志收集等高吞吐场景,kafka有更好的吞吐量,内置分区,副本和故障转移,这有利于处理大规模的消息,所以kafka被各大公司广泛运用于消息队列的构建:
大数据老哥
2021/03/05
1.4K0
都说Kafka牛3万字带你全面掌握kafka
Kafka入门——Kafka系列(一)
Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform)
翰墨飘香
2023/07/06
5950
初识kafka
当消息写入不同分区时需要可控,可以用到键,如对键进行一致性hash。第3章将详细介绍键的用法。
蚬爷
2020/08/25
4100
Kafka
优点: (1)解耦 (2)冗余(备份) (3)扩展性 (4)灵活性、峰值处理能力 (5)可恢复性(冗余) (6)顺序保证(队列) (7)缓冲(冗余) (8)异步通信(宕机)
matt
2022/10/25
4960
Kafka
Kafka基础与核心概念
Kafka 由一个或多个节点组成的工作集群,这些节点可以位于不同的数据中心,我们可以在 Kafka 集群的不同节点之间分布数据/负载,并且它天生具有可扩展性、可用性和容错性。
从大数据到人工智能
2022/12/01
7880
Kafka介绍和集群环境搭建
kafka是一个高吞吐量的流式分布式消息系统,用来处理活动流数据,比如网页的访问量pm,日志等,既能够实时处理大数据信息也能离线处理。
星哥玩云
2022/07/03
3660
kafka学习笔记——基本概念与安装
Kafka是一个开源的,轻量级的、分布式的、具有复制备份、基于zooKeeper协调管理的分布式消息系统。
Janti
2018/08/20
5650
kafka学习笔记——基本概念与安装
【Kafka】Kafka 基础知识总结
Kafka其实是一款基于发布与订阅模式的消息系统,如果按常理来设计,大家是不是把消息发送者的消息直接发送给消息消费者?但Kafka并不是这么设计的,Kafka消息的生产者会对消息进行分类,再发送给中间的消息服务系统,而消息消费者通过订阅某分类的消息去接受特定类型的消息。
JavaSouth南哥
2024/12/04
2060
【Kafka】Kafka 基础知识总结
Kafka超详细学习笔记【概念理解,安装配置】
Apache Kafka 是一个分布式流处理平台:distributed streaming platform。
烂猪皮
2023/09/04
1.5K0
Kafka超详细学习笔记【概念理解,安装配置】
深入理解Kafka必知必会(上)
分区中的所有副本统称为 AR(Assigned Replicas)。所有与 leader 副本保持一定程度同步的副本(包括 leader 副本在内)组成ISR(In-Sync Replicas),ISR 集合是 AR 集合中的一个子集。
luozhiyun
2019/11/10
1.1K0
分布式消息队列Kafka
Zookeeper:保存集群元数据和消费者信息,broker和主题元数据、消费者元数据分区偏移量
凹谷
2020/04/11
1.2K0
Kafka 简介
在Kafka中,客户端和服务器之间的通信是通过一种简单的,高性能的,语言不可知的TCP协议完成的。
小忽悠
2018/08/29
1.2K1
kafka环境安装-基于windows
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。--百度百科
逍遥壮士
2021/04/13
5030
kafka环境安装-基于windows
走近Kafka:大数据领域的不败王者
和 RabbitMQ 类似,Kafka(全称 Apache Kafka)是一个分布式发布-订阅消息系统。
xin猿意码
2023/12/19
3630
走近Kafka:大数据领域的不败王者
kafka学习之路(一)——入门
kafka学习之路(一)——入门 Kafka学习之路... 一、入门.. 1、 简介 2、 主题(Topics)、日志(Logs) 3、 分布式(Distribution) 4、 生产者(Producers) 5、 消费者(Consumers) 一、入门 1、简介 Kafka 是linkedin 公司用于日志处理的分布式消息队列,同时支持离线和在线日志处理。kafka 对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka 集群有多个kafka 实
汤高
2018/01/11
1.1K0
kafka学习之路(一)——入门
【Kafka专栏】-Kafka从初始到搭建到应用
同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。
LhWorld哥陪你聊算法
2018/09/13
5830
【Kafka专栏】-Kafka从初始到搭建到应用
Kafka —— 弥合日志系统和消息队列的鸿沟
Kafka (该论文发表于 2011 年 6 月 [1])是日志处理和消息队列系统的集大成者。较低的延迟、极高的容量和吞吐,使其可以应用于在线服务和离线业务。为了兼顾性能和可扩展性,Kafka 做了一些看起来反直觉但是却很实用的设计。例行总结一下其设计特点:
木鸟杂记
2021/09/26
6660
Kafka入门篇学习笔记整理
本文只包含Kafka入门使用导学,后续会继续整理Kafka进阶知识与底层原理剖析。
大忽悠爱学习
2023/04/12
1.3K0
Kafka入门篇学习笔记整理
Kafka原理和实践
本文从Kafka的基本概念、特点、部署和配置、监控和管理等方面阐述 Kafka 的实践过程。
杨振涛
2019/08/08
1.5K0
相关推荐
大数据--kafka学习第一部分 Kafka架构与实战
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档