开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Kafka、Avro和模式注册表

Kafka是一种分布式流数据平台，由LinkedIn开发并捐赠给了Apache软件基金会，成为了Apache项目的一部分。它提供了高吞吐量、低延迟的方式来处理大规模的实时数据流。以下是关于Kafka的完善且全面的答案：

概念：Kafka是一个分布式流平台，用于发布和订阅流式数据，并能够存储和处理这些数据。它基于发布-订阅模式，其中消息被分为不同的主题（Topics），生产者（Producers）将消息发布到主题，而消费者（Consumers）则订阅主题并处理消息。
分类：Kafka可以被分类为一个消息队列系统，因为它能够接收、存储和传递大量的消息流。同时，它也可以被看作是一个分布式的流数据处理平台，因为它允许开发人员通过流处理器来处理和转换数据。
优势：
- 高吞吐量和低延迟：Kafka可以处理数千个生产者和消费者，并且能够以毫秒级的延迟传递消息。
- 可扩展性：Kafka的分布式架构使得它可以在集群中添加更多的节点，以处理更多的数据和请求。
- 高可靠性：Kafka通过数据复制和持久化来确保消息的可靠性，即使某些节点故障也能保证数据不丢失。
- 持久化存储：Kafka将所有的消息都持久化到磁盘上，因此即使消费者出现问题，消息仍然可以被重新消费。
- 可扩展性：Kafka能够支持分区，并且每个分区可以在多个服务器上进行复制，从而实现数据的负载均衡和水平扩展。

应用场景：
- 日志收集与聚合：Kafka可以用于收集和聚合分布式系统中的大量日志数据，并将其传送给消费者进行分析和处理。
- 实时流处理：Kafka的流处理能力使其成为构建实时数据处理应用程序的理想选择，例如实时分析、监控和报警系统。
- 事件驱动架构：Kafka的消息传递特性使其成为构建基于事件驱动的架构的重要组件，例如微服务架构和事件驱动的工作流。
- 提供实时数据源：Kafka可以将数据实时地提供给其他系统，例如数据仓库、搜索引擎和缓存系统。
腾讯云相关产品和介绍链接地址：
- 腾讯云消息队列 CKafka：https://cloud.tencent.com/product/ckafka
- 腾讯云流数据分析 Kafka-Connector：https://cloud.tencent.com/product/kafta-connector

Avro是一种数据序列化系统，它提供了一种紧凑且快速的二进制数据序列化格式。以下是关于Avro的完善且全面的答案：

概念：Avro是一个开源的数据序列化系统，它定义了一种紧凑且快速的二进制数据序列化格式。它支持动态数据类型，并提供了一组丰富的数据结构定义，用于描述复杂数据类型。
分类：Avro可以被分类为一种数据序列化系统，它允许开发人员将复杂的数据结构序列化为紧凑的二进制格式，以便在不同的应用程序和系统之间进行数据传递和存储。
优势：
- 快速和高效：Avro使用二进制编码格式，因此序列化和反序列化过程非常快速，并且生成的数据大小较小。
- 动态数据类型：Avro支持动态数据类型，允许开发人员在不事先定义数据结构的情况下进行数据序列化和反序列化。
- 语言无关性：Avro定义了一种通用的数据结构描述语言（Schema），可以支持多种编程语言的数据交换和共享。
- 向后和向前兼容性：Avro的Schema定义支持向后和向前兼容性，使得数据结构的演化和升级更加灵活。

应用场景：
- 大规模数据处理：Avro可以用于将大规模数据序列化为紧凑的二进制格式，并在分布式系统中进行高效的数据传递和处理。
- 数据存储和交换：Avro的紧凑格式使其成为数据存储和交换的理想选择，例如数据湖、数据仓库和消息队列系统。
- 数据共享和集成：Avro的语言无关性使其能够轻松地在不同的编程语言和系统之间进行数据共享和集成。
腾讯云相关产品和介绍链接地址：
- 腾讯云数据治理 ADG：https://cloud.tencent.com/product/adg

模式注册表是一种用于管理和存储数据序列化格式的中央存储库。以下是关于模式注册表的完善且全面的答案：

概念：模式注册表是一种中央存储库，用于管理和存储数据序列化格式的模式。它允许开发人员在序列化和反序列化过程中使用预定义的模式，以确保数据的一致性和有效性。
分类：模式注册表可以被看作是一个元数据管理系统，它管理和存储与数据序列化相关的元数据，例如数据结构定义和版本信息。
优势：
- 数据一致性：模式注册表确保在序列化和反序列化过程中使用相同的数据结构定义，从而确保数据的一致性和有效性。
- 数据演化：模式注册表支持数据结构的演化，使得数据模式的升级和变更更加灵活和可控。
- 数据版本控制：模式注册表可以跟踪和管理不同版本的数据结构，以便于数据的追溯和分析。
- 开发人员友好：模式注册表提供了易于使用的接口和工具，方便开发人员管理和维护数据结构的定义。

应用场景：
- 数据序列化和反序列化：模式注册表可以用于管理和存储数据序列化和反序列化过程中所使用的模式，确保数据的一致性和有效性。
- 数据模式演化：模式注册表支持数据结构的演化，使得在数据模式升级和变更时能够进行版本控制和管理。
- 元数据管理：模式注册表可以用于管理和存储与数据序列化相关的元数据，例如数据结构定义和版本信息。
腾讯云相关产品和介绍链接地址：
- 腾讯云数据治理 ADG：https://cloud.tencent.com/product/adg

相关搜索:通过kafka-avro-console-producer和confluent模式注册表使用RecordNameStrategy 对模式注册表中已有的模式使用kafka-avro-console-producer kafka avro模式的每日备份使用avro模式注册表的java kafka stream的正确指南 Spring / Avro -使用confluent模式注册表 Kafka模式注册表的模式问题 Kafka Avro Producer ( kafka -avro-console-producer)发送到kafka connect时出现模式错误来自kafka-streams groupby (akka aggr)操作的合流模式注册表中的Avro模式使用Avro将JSON中的数据写入KAFKA，使用NiFi将Confluent模式注册表写入KAFKA。docker模式注册表和kafka rest无法启动当我使用kafka模式注册表时，我真的需要avro4s吗？Spring Kafka + Json +模式注册表融合支持模式注册表的Spark from_avro函数 Kafka:使用架构注册表序列化Avro消息时出错定义Avro模式 Apache kafka与apache Avro Avro Schema与Kafka，ClassCastException？使用Kafka schema-registry API创建新的avro模式如何在Pyspark中获取kafka模式注册表？Nifi和Avro:使用指定的avro模式将数据和元数据转换为avro文件？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Kafka生态

Confluent提供了业界唯一的企业级事件流平台，Confluent Platform通过将来自多个源和位置的数据集成到公司的单个中央事件流平台中，可以轻松构建实时数据管道和流应用程序。Confluent平台使您可以专注于如何从数据中获取业务价值，而不必担心诸如在各种系统之间传输或处理数据的基本机制。具体来说，Confluent平台简化了将数据源连接到Kafka，使用Kafka构建应用程序以及保护，监视和管理Kafka基础架构的过程。

01

Kafka 中使用 Avro 序列化组件(三)：Confluent Schema Registry

无论是使用传统的Avro API自定义序列化类和反序列化类还是使用Twitter的Bijection类库实现Avro的序列化与反序列化，这两种方法都有一个缺点：在每条Kafka记录里都嵌入了schema，这会让记录的大小成倍地增加。但是不管怎样，在读取记录时仍然需要用到整个 schema，所以要先找到 schema。有没有什么方法可以让数据共用一个schema？

02

云原生计算基金会 CloudEvents 毕业典礼：与 Clemens Vasters 的问答

今年早些时候，云原生计算基金会（CNCF）宣布了 CloudEvents 的毕业。CloudEvents 是一个旨在以标准化的方式来公开事件元数据的规范，这有助于确保跨平台、服务和系统的互操作性。

01

03 Confluent_Kafka权威指南第三章： Kafka 生产者：向kafka写消息

无论你将kafka当作一个队列、消息总线或者数据存储平台，你都需要通过一个生产者向kafka写入数据，通过一个消费者从kafka读取数据。或者开发一个同时具备生产者和消费者功能的程序来使用kafka。例如，在信用卡交易处理系统中，有一个客户端的应用程序（可能是一个在线商店）在支付事物发生之后将每个事物信息发送到kafka。另外一个应用程序负责根据规则引擎去检查该事物，确定该事物是否被批准还是被拒绝。然后将批准/拒绝的响应写回kafka。之后kafka将这个事物的响应回传。第三个应用程序可以从kafka中读取事物信息和其审批状态，并将他们存储在数据库中，以便分析人员桑后能对决策进行检查并改进审批规则引擎。 apache kafka提供了内置的客户端API，开发者在开发与kafka交互的应用程序时可以使用这些API。在本章中，我们将学习如何使用kafka的生产者。首先对其设计理念和组件进行概述。我们将说明如何创建kafkaProducer和ProducerRecord对象。如何发送信息到kafka，以及如何处理kafak可能返回的错误。之后，我们将回顾用于控制生产者行为的重要配置选项。最后，我们将深入理解如何使用不同的分区方法和序列化。以及如何编写自己的序列化器和分区器。在第四章我们将对kafka消费者客户端和消费kafka数据进行阐述。

03

用 Apache NiFi、Kafka和 Flink SQL 做股票智能分析

本文是关于如何在实时分析中使用云原生应用程序对股票数据进行连续 SQL 操作的教程。

03

Kafka —— 弥合日志系统和消息队列的鸿沟

Kafka （该论文发表于 2011 年 6 月 [1]）是日志处理和消息队列系统的集大成者。较低的延迟、极高的容量和吞吐，使其可以应用于在线服务和离线业务。为了兼顾性能和可扩展性，Kafka 做了一些看起来反直觉但是却很实用的设计。例行总结一下其设计特点：

03

Flink1.9新特性解读：通过Flink SQL查询Pulsar

问题导读 1.Pulsar是什么组件？ 2.Pulsar作为Flink Catalog，有哪些好处？ 3.Flink是否直接使用Pulsar原始模式？ 4.Flink如何从Pulsar读写数据？ Flink1.9新增了很多的功能，其中一个对我们非常实用的特性通过Flink SQL查询Pulsar给大家介绍。我们以前可能遇到过这样的问题。通过Spark读取Kafka，但是如果我们想查询kafka困难度有点大的，当然当前Spark也已经实现了可以通过Spark sql来查询kafka的数据。那么Flink 1.9又是如何实现通过Flink sql来查询Pulsar。可能我们大多对kafka的比较熟悉的，但是对于Pulsar或许只是听说过，所以这里将Pulsar介绍下。 Pulsar简介 Pulsar由雅虎开发并开源的一个多租户、高可用，服务间的消息系统，目前是Apache软件基金会的孵化器项目。 Apache Pulsar是一个开源的分布式pub-sub消息系统，用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本机支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。 Pulsar已经在一些名企应用，比如腾讯用它类计费。而且它的扩展性是非常优秀的。下面是实际使用用户对他的认识。

01

什么是Kafka

该文介绍了Kafka的基本概念、应用场景、优缺点、实现原理、主要概念、相关概念和主要功能。Kafka是一个分布式流媒体平台，用于发布和订阅记录流。它具有高吞吐量、可扩展性、持久性、容错性、实时性等特点。Kafka在大数据领域非常流行，用于实时数据处理、日志收集、流处理、事件驱动应用等。

02

基于Apache Hudi和Debezium构建CDC入湖管道

当想要对来自事务数据库（如 Postgres 或 MySQL）的数据执行分析时，通常需要通过称为更改数据捕获[4] CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统。Debezium 是一种流行的工具，它使 CDC 变得简单，其提供了一种通过读取更改日志[5]来捕获数据库中行级更改的方法，通过这种方式 Debezium 可以避免增加数据库上的 CPU 负载，并确保捕获包括删除在内的所有变更。现在 Apache Hudi[6] 提供了 Debezium 源连接器，CDC 引入数据湖比以往任何时候都更容易，因为它具有一些独特的差异化功能[7]。Hudi 可在数据湖上实现高效的更新、合并和删除事务。Hudi 独特地提供了 Merge-On-Read[8] 写入器，与使用 Spark 或 Flink 的典型数据湖写入器相比，该写入器可以显着降低摄取延迟[9]。最后，Apache Hudi 提供增量查询[10]，因此在从数据库中捕获更改后可以在所有后续 ETL 管道中以增量方式处理这些更改下游。

02

微服务需要一场由内至外的变革

作者 | Bilgin Ibryam 译者 | 王强编辑 | Tina 为了让微服务足以应对未来的挑战，在设计微服务时需要加入数据流经的入站和出站 API，以及描述这些 API 的元 API。分布式系统专家 Martin Kleppmann 在他的“由内至外的数据库变革”的演讲中提出了一个激进的想法：“从关系型数据库转向不可变事件和物化视图的日志可以带来显著的收益。”他在演讲中讲解了关系型数据库的内部工作原理，以及使用这种数据库架构创建的应用程序所面临的诸多局限，这些内容会彻底改变你对数据库和事件日志

01

Cloudera 流处理社区版(CSP-CE)入门

Cloudera 在为流处理提供综合解决方案方面有着良好的记录。Cloudera 流处理 (CSP) 由 Apache Flink 和 Apache Kafka 提供支持，提供完整的流管理和有状态处理解决方案。在 CSP 中，Kafka 作为存储流媒体底层，Flink 作为核心流处理引擎，支持 SQL 和 REST 接口。CSP 允许开发人员、数据分析师和数据科学家构建混合流数据管道，其中时间是一个关键因素，例如欺诈检测、网络威胁分析、即时贷款批准等。

01

Edge2AI之使用 SQL 查询流

在本次实验中，您将在 Cloudera SQL Stream Builder使用 SQL 语言查询和操作数据流。SQL Stream Builder 是一项功能强大的服务，使您无需编写 Java/Scala 代码即可创建 Flink 作业。

06

初识kafka中的生产者与消费者

7. broker判断是否消息失败，成功则直接返回元数据【可选】，失败判断是否重试，对应做相应处理

04

实时数仓建设思考与方案记录

随着我司业务飞速增长，实时数仓的建设已经提上了日程。虽然还没有正式开始实施，但是汲取前人的经验，做好万全的准备总是必要的。本文简单松散地记录一下想法，不涉及维度建模方法论的事情（这个就老老实实去问Kimball他老人家吧）。

02

写入 Hudi 数据集

这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用Hudi数据源的upserts加快大型Spark作业的方法。对于此类数据集，我们可以使用各种查询引擎查询它们。

04

Yotpo构建零延迟数据湖实践

随着系统变得越来越复杂，我们需要更多的解决方案来集中维护大量数据，以便对其进行监控和查询，而又不会干扰运营数据库。在Yotpo，我们有许多微服务和数据库，因此将数据传输到集中式数据湖中的需求至关重要。我们一直在寻找易于使用的基础架构（仅需配置），以节省工程师的时间。

03

使用Kafka和ksqlDB构建和部署实时流处理ETL引擎

在Koverhoop，我们正在保险，医疗保健，房地产和离线分析领域建立一系列大型项目。对于我们的多租户团体保险经纪平台klient.ca，我们将建立强大的搜索功能。我们希望我们的搜索结果在键入时出现。以下是我们能够实现的目标，在本文中，我将讨论核心基础架构，我们如何完全自动化其部署以及如何也可以非常快速地对其进行设置。

02

初识kafka

Kafka经常用于实时流数据架构，用于提供实时分析。本篇将会简单介绍kafka以及它为什么能够广泛应用。

03

基于 Apache Hudi 构建分析型数据湖

为了更好地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。

02

【首席架构师看Event Hub】Kafka深挖 -第2部分:Kafka和Spring Cloud Stream

在这个博客系列的第1部分之后，Apache Kafka的Spring——第1部分:错误处理、消息转换和事务支持，在这里的第2部分中，我们将关注另一个增强开发者在Kafka上构建流应用程序时体验的项目:Spring Cloud Stream。

02

真魔法！图形化管理 Kafka 超轻量的自动化工具

Kafka Magic[1] 是一个用于处理 Apache Kafka 集群的 GUI 工具。它可以查找和显示消息、在 Topic 之间转换和移动消息、查看和更新模式、管理 Topic 以及自动化复杂任务。

02

微服务的进程间通信(IPC)

服务APIs使用版本语法来命名APIs的版本。版本语法包含三个部分：MAJOR.MINOR.PATCH。

04

与我一起学习微服务架构设计模式3—微服务架构中的进程间通信

选择合适的进程间通信机制是一个重要的架构决策,它会影响应用的可用性,甚至与事务管理相互影响。

01

Table API&SQL的基本概念及使用介绍

Table API和SQL集成在共同API中。这个API的中心概念是一个用作查询的输入和输出的表。本文档显示了具有表API和SQL查询的程序的常见结构，如何注册表，如何查询表以及如何发出表。 Table API和SQL捆绑在flink-table Maven工程中。为了使用Table API和SQL，必须将以下依赖项添加到您的项目中： <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table_2.10</a

07

PutHiveStreaming

该处理器使用Hive流将流文件数据发送到Apache Hive表。传入的流文件需要是Avro格式，表必须存在于Hive中。有关Hive表的需求(格式、分区等)，请参阅Hive文档。分区值是根据处理器中指定的分区列的名称，然后从Avro记录中提取的。注意:如果为这个处理器配置了多个并发任务，那么一个线程在任何时候只能写入一个表。写入同一表的其他任务将等待当前任务完成对表的写入。

03

Kafka详细的设计和生态系统

本译文自Jean-Paul Azar 在 https://dzone.com 发表的 Kafka Detailed Design and Ecosystem ，文中版权，图像代码的数据均归作者所有。为

01

教程|运输IoT中的NiFi

本教程涵盖了Apache NiFi的核心概念及其在其中流量管理，易用性，安全性，可扩展架构和灵活扩展模型非常重要的环境中所扮演的角色。

02

Grab 基于 Apache Hudi 实现近乎实时的数据分析

在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。

01

CSA1.4新功能

3 月底，作为 Cloudera Streaming Analytics 1.3 的一部分，我们发布了Cloudera SQL Stream Builder的第一个版本。它使用户能够轻松地编写、运行和管理对来自 Apache Kafka 的流的实时 SQL 查询，并提供异常流畅的用户体验。

03

深入理解 Kafka Connect 之转换器和序列化

Kafka Connect 是 Apache Kafka 的一部分，提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说，只需要配置 JSON 文件就可以使用。Kafka 为一些常见数据存储的提供了 Connector，比如，JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说，Kafka Connect 提供了丰富的 API，如果有必要还可以开发其他 Connector。除此之外，还提供了用于配置和管理 Connector 的 REST API。

04

基于腾讯云kafka同步到Elasticsearch初解方式有几种？

简介： 1、kafka同步到Elasticsearch方式？目前已知常用的方式有四种： 1）logstash_input_kafka插件；缺点：不稳定（ES中文社区讨论） 2）spark stream同步；缺点：太庞大 3）kafka connector同步； 4）自写程序读取、解析、写入

00

基于 Kafka 与 Debezium 构建实时数据同步

在进行架构转型与分库分表之前，我们一直采用非常典型的单体应用架构：主服务是一个 Java WebApp，使用 Nginx 并选择 Session Sticky 分发策略做负载均衡和会话保持；背后是一个 MySQL 主实例，接了若干 Slave 做读写分离。在整个转型开始之前，我们就知道这会是一块难啃的硬骨头：我们要在全线业务飞速地扩张迭代的同时完成架构转型，因为这是实实在在的”给高速行驶的汽车换轮胎”。

03

07 Confluent_Kafka权威指南第七章：构建数据管道

当人们讨论使用apache kafka构建数据管道时，他们通常会应用如下几个示例，第一个就是构建一个数据管道，Apache Kafka是其中的终点。丽日，从kafka获取数据到s3或者从Mongodb获取数据到kafka。第二个用例涉及在两个不同的系统之间构建管道。但是使用kafka做为中介。一个例子就是先从twitter使用kafka发送数据到Elasticsearch，从twitter获取数据到kafka。然后从kafka写入到Elasticsearch。我们在0.9版本之后在Apache kafka 中增加了kafka connect。是我们看到之后再linkerdin和其他大型公司都使用了kafka。我们注意到，在将kafka集成到数据管道中的时候，每个公司都必须解决的一些特定的挑战，因此我们决定向kafka 添加AP来解决其中的一些特定的挑战。而不是每个公司都需要从头开发。 kafka为数据管道提供的主要价值是它能够在管道的各个阶段之间充当一个非常大的，可靠的缓冲区，有效地解耦管道内数据的生产者和消费者。这种解耦，结合可靠性、安全性和效率，使kafka很适合大多数数据管道。

03

Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间，Apache Hudi 社区终于发布了0.5.1版本，这是Apache Hudi发布的第二个Apache版本，该版本中一些关键点如下

03

Mysql实时数据变更事件捕获kafka confluent之debezium

如果你的后端应用数据存储使用的MySQL，项目中如果有这样的业务场景你会怎么做呢？

03

Avro、Protobuf和Thrift中的模式演变

马丁-克莱普曼于2012年12月5日发表。你有一些数据，你想存储在一个文件中或通过网络发送。你可能会发现自己经历了几个阶段的演变。使用你的编程语言的内置序列化，例如 Java serialization, Ruby的 marshal或 Python 的 pickle. 或者你甚至可以发明你自己的格式。然后你意识到被锁定在一种编程语言中是很糟糕的，所以你转而使用一种被广泛支持的、与语言无关的格式，如JSON（如果你喜欢像1999年那样狂欢，也可以使用XML）。然后你决定JSON太冗长了，解析起来太慢了

04

干货 | 五千字长文带你快速入门FlinkSQL

最近几天因为工作比较忙，已经几天没有及时更新文章了，在这里先给小伙伴们说声抱歉…临近周末，再忙再累，我也要开始发力了。接下来的几天，菌哥将为大家带来关于FlinkSQL的教程，之后还会更新一些大数据实时数仓的内容，和一些热门的组件使用！希望小伙伴们能点个关注，第一时间关注技术干货！

01

个推基于Flink SQL建设实时数仓实践

作为一家数据智能企业，个推在服务垂直行业客户的过程中，会涉及到很多数据实时计算和分析的场景，比如在服务开发者时，需要对App消息推送的下发数、到达数、打开率等后效数据进行实时统计；在服务政府单位时，需要对区域内实时人口进行统计和画像分析。为了更好地支撑大数据业务发展，个推也建设了自己的实时数仓。相比Storm、Spark等实时处理框架，Flink不仅具有高吞吐、低延迟等特性，同时还支持精确一次语义（exactly once）、状态存储等特性，拥有很好的容错机制，且使用门槛低、易上手、开发难度小。因此，个推主要基于Flink SQL来解决大部分的实时作业需求。

04

Edge2AI之NiFi 和流处理

在本次实验中，您将实施一个数据管道来处理之前从边缘捕获的数据。您将使用 NiFi 将这些数据摄取到 Kafka，然后使用来自 Kafka 的数据并将其写入 Kudu 表。

03

TiDB 6.1 发版：LTS 版本来了

我们很高兴向大家宣布，TiDB 6.1 于 6 月 xx 日发布了，这是 TiDB 6 系版本的第一个长期支持版（Long Term Support）。

02

大数据生态圈常用组件（二）：概括介绍、功能特性、适用场景

点赞之后，上一篇传送门： https://blog.csdn.net/weixin_39032019/article/details/89340739

02

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

04

Flink 自定义Avro序列化(Source/Sink)到kafka中

最近一直在研究如果提高kafka中读取效率，之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好，偶然之间接触到了Avro序列化，发现kafka也是支持Avro的方式于是就有了本篇文章。

02

Schema Registry在Kafka中的实践

众所周知，Kafka作为一款优秀的消息中间件，在我们的日常工作中，我们也会接触到Kafka，用其来进行削峰、解耦等，作为开发的你，是否也是这么使用kafka的：

03

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可以使用各种查询引擎查询这些表。

01

Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面（三）SQL篇

哈喽各位，本章主要写的是FlinkSQL也是Flink章节的倒数第二篇了，最后还有一篇FlinkCEP，稍后会出，耐心关注哦！好了，进入正题！！！！

03

基于Apache Hudi在Google云平台构建数据湖

自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进行有效的业务分析，必须对现代应用程序创建的数据进行处理和分析，并且产生的数据量非常巨大！有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要，只有这样对该数据的分析才能产生有意义的结果。

01

进击消息中间件系列（十四）：Kafka 流式 SQL 引擎 KSQL

kafka 早期作为一个日志消息系统，很受运维欢迎的，配合ELK玩起来很happy，在kafka慢慢的转向流式平台的过程中，开发也慢慢介入了，一些业务系统也开始和kafka对接起来了，也还是很受大家欢迎的，由于业务需要，一部分小白也就免不了接触kafka了，这些小白总是会安奈不住好奇心，要精确的查看kafka中的某一条数据，作为服务提供方，我也很方啊，该怎么怼？业务方不敢得罪啊，只能写consumer去消费，然后人肉查询。

02

Flume + Kafka + Spark Streaming整合

参考： http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.5.0/FlumeUserGuide.html Logger-->Flume 1/配置Flume配置文件streaming.conf agent1.sources=avro-source agent1.channels=logger-channel agent1.sinks=log-sink #define source agent1.sources.avro-source

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭