开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用Python的Apache Beam ReadFromKafka在Flink中运行，但没有发布的消息通过

Apache Beam是一个用于大规模数据处理的开源框架，它提供了一种统一的编程模型，可以在不同的分布式数据处理引擎中运行，包括Flink。Apache Beam的目标是提供一种通用的方式来处理批处理和流处理数据，并且可以在不同的计算引擎之间无缝切换。

ReadFromKafka是Apache Beam中用于从Kafka消息队列中读取数据的函数。它可以用于将Kafka中的消息作为输入流传递给数据处理管道。

在Flink中使用Python的Apache Beam ReadFromKafka运行时，需要进行以下步骤：

安装Apache Beam和Flink的Python SDK：首先需要安装Apache Beam和Flink的Python SDK，可以通过pip命令进行安装。
导入必要的库和模块：在Python脚本中，需要导入Apache Beam和Flink的相关库和模块，以便使用其提供的函数和类。
创建Pipeline对象：使用Apache Beam的Pipeline类创建一个数据处理管道对象。
使用ReadFromKafka函数读取Kafka消息：在管道中使用ReadFromKafka函数，指定Kafka的相关配置信息，如Kafka的地址、主题等，以便从Kafka中读取消息。
定义数据处理逻辑：在管道中定义数据处理逻辑，可以使用Apache Beam提供的各种转换函数和操作符对数据进行处理和转换。
运行管道：使用Flink的执行引擎来运行Apache Beam的管道，将数据处理逻辑应用到从Kafka中读取的消息上。

下面是一个示例代码：

import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions

# 创建Pipeline对象
pipeline_options = PipelineOptions()
pipeline = beam.Pipeline(options=pipeline_options)

# 从Kafka中读取消息
kafka_config = {
    'bootstrap.servers': 'kafka_server:9092',
    'group.id': 'my_group',
    'auto.offset.reset': 'earliest'
}
kafka_topic = 'my_topic'
messages = (
    pipeline
    | 'ReadFromKafka' >> beam.io.ReadFromKafka(
        consumer_config=kafka_config,
        topics=[kafka_topic]
    )
)

# 定义数据处理逻辑
processed_messages = (
    messages
    | 'ProcessData' >> beam.Map(lambda message: process_message(message))
)

# 运行管道
result = pipeline.run()
result.wait_until_finish()

在上述示例代码中，需要根据实际情况配置Kafka的地址、主题等信息，并定义process_message函数来处理每条消息。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云消息队列 CMQ：腾讯云提供的消息队列服务，可以用于实时数据传输和异步通信。链接地址：https://cloud.tencent.com/product/cmq
腾讯云流计算 TDSQL-C：腾讯云提供的流计算服务，可以实时处理和分析大规模数据流。链接地址：https://cloud.tencent.com/product/tdsqlc

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和情况进行评估。

相关搜索:使用python在apache beam中根据条件调用特定的pubsub主题通过GKE POD中的Cron执行时，无法使用Python SDK将消息发布到GCP发布/订阅使用VSCode运行的python的OpenCV在“cv2.VideoCapture(0)”处停止，但没有给出错误在Python中运行时“没有这样的函数:地板”，但当我在sqlite3.exe中键入SELECT语句时，它运行时没有问题使用PIL的Python脚本在由cmd运行时在IDE中不起作用，并提供'PIL‘没有属性'Image’在python中返回bool时，使用命令提示符时返回正确的结果，但使用IDE时没有返回结果通过Windows PuTTY在QwikLabs Linux VM中运行python是行不通的，但是通过mac就可以了。有没有办法让它在Windows上工作？在java程序员中通过python和TensorFlow2.1.0使用来自hub.KerasLayer的模型时，“在图形中没有名为[input]的操作”在我的python代码中，有没有一种方法可以在某个管道之后使用apache光束创建一个空文件呢？有没有办法配置我的代码运行器从我的conda中设置我的Python解释器？我在VSCode终端中使用了来自conda的虚拟环境。使用discord.py在python中为我的不一致机器人编写spotify info命令，运行命令时没有收到任何错误

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Apache Beam 架构原理及应用实践

导读：大家好，很荣幸跟大家分享 Apache Beam 架构原理及应用实践。讲这门课之前大家可以想想，从进入 IT 行业以来，不停的搬运数据，不管职务为前端，还是后台服务器端开发。随着这两年科技的发展，各种数据库，数据源，应运而生，大数据组件，框架也是千变万化，从 Hadoop 到现在的 Spark、Flink，数据库从先前的 oracle、MySQL 到现在的 NOSQL，不断延伸。那么有没有统一的框架，统一的数据源搬砖工具呢？

02

Apache Beam 初探

Beam可以解决什么问题？当MapReduce作业从Hadoop迁移到Spark或Flink，就需要大量的重构。Dataflow试图成为代码和执行运行时环境之间的一个抽象层。代码用Dataflow SDK实施后，会在多个后端上运行，比如Flink和Spark。Beam支持Java和Python，与其他语言绑定的机制在开发中。它旨在将多种语言、框架和SDK整合到一个统一的编程模型。

01

Apache Beam实战指南 | 玩转KafkaIO与Flink

AI前线导读：本文是 **Apache Beam实战指南系列文章** 的第二篇内容，将重点介绍 Apache Beam与Flink的关系，对Beam框架中的KafkaIO和Flink源码进行剖析，并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka和Flink。系列文章第一篇回顾Apache Beam实战指南之基础入门

02

Apache下流处理项目巡览

我们的产品需要对来自不同数据源的大数据进行采集，从数据源的多样化以及处理数据的低延迟与可伸缩角度考虑，需要选择适合项目的大数据流处理平台。我最初列出的候选平台包括Flume、Flink、Kafka Streaming以及Spark Streaming。然而对产品架构而言，这个技术选型的决策可谓举足轻重，倘若选择不当，可能会导致较大的修改成本，须得慎之又慎。我除了在项目中曾经使用过Flume、Kafka以及Spark Streaming之外，对其余平台并不甚了解。即便是用过的这几个平台，也了解得比较

06

用Python进行实时计算——PyFlink快速入门

在最新版本的Flink 1.10中，PyFlink支持Python用户定义的函数，使您能够在Table API和SQL中注册和使用这些函数。但是，听完所有这些后，您可能仍然想知道PyFlink的架构到底是什么？作为PyFlink的快速指南，本文将回答这些问题。

02

InfoWorld最佳开源大数据工具奖，看看有哪些需要了解学习的新晋工具

一年一度由世界知名科技媒体InfoWorld评选的Bossie Awards于2016年9月21日公布，评选了最佳大数据工具奖，最佳大数据应用奖，最佳网络与安全奖等多个奖项。在最佳开源大数据工具奖中，

06

大数据框架—Flink与Beam

Flink是Apache的一个顶级项目，Apache Flink 是一个开源的分布式流处理和批处理系统。Flink 的核心是在数据流上提供数据分发、通信、具备容错的分布式计算。同时，Flink 在流处理引擎上构建了批处理引擎，原生支持了迭代计算、内存管理和程序优化。

02

成员网研会：Flink操作器 = Beam-on-Flink-on-K8s（视频+PDF）

讲者：Aniket Mokashi，工程经理 @谷歌；Dagang Wei，软件工程师 @谷歌

02

Flink Forward 2019--实战相关(6)--Google分享与Beam整合

Apache Beam: Portability in the times of Real Time Streaming -- Pablo Estrada(Google)

02

Apache Beam WordCount编程实战及源码解读

本文介绍了如何使用 Apache Beam 实现 WordCount 程序，通过一个简单的 Maven 项目结构，展示了如何通过 Apache Beam 及其相关依赖和配置，使用 Spark、Flink 和 Apex 等大数据框架来运行并执行 WordCount 程序。

06

实时计算框架 Flink 新方向：打造「大数据+AI」未来更多可能

自 Flink 开源以来，越来越多的开发者加入了 Flink 社区。仅仅 2019 年，Flink 在 GitHub 上的 Star 数量翻了一倍，Contributor 数量也呈现出持续增长的态势。而它目前在 GitHub 上的访问量，也位居 Apache 项目中前三，是 Apache 基金会中最为活跃的项目之一。

01

InfoWorld Bossie Awards公布

AI 前线导读：一年一度由世界知名科技媒体 InfoWorld 评选的 Bossie Awards 于 9 月 26 日公布，本次 Bossie Awards 评选出了最佳数据库与数据分析平台奖、最佳软件开发工具奖、最佳机器学习项目奖等多个奖项。在最佳开源数据库与数据分析平台奖中，Spark 和 Beam 再次入选，连续两年入选的 Kafka 这次意外滑铁卢，取而代之的是新兴项目 Pulsar；这次开源数据库入选的还有 PingCAP 的 TiDB；另外Neo4依然是图数据库领域的老大，但其开源版本只能单机无法部署分布式，企业版又费用昂贵的硬伤，使很多初入图库领域的企业望而却步，一直走低调务实作风的OrientDB已经慢慢成为更多用户的首选。附：30分钟入门图数据库(精编版) Bossie Awards 是知名英文科技媒体 InfoWorld 针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象，由 InfoWorld 编辑独立评选，目前已经持续超过十年，是 IT 届最具影响力和含金量奖项之一。一起来看看接下来你需要了解和学习的数据库和数据分析工具有哪些。

04

2017年，大数据工程师应该如何充实自己的专业工具箱

在实时计算领域，Apache Storm、Samza、Spark Streaming、Kafka Stream、Flink 等开源流式计算引擎层出不穷，呈现百家争鸣之势，Google 也顺势推出了开源的 Beam 计算框架标准。

03

Apache Beam：下一代的数据处理标准

Apache Beam（原名Google DataFlow）是Google在2016年2月份贡献给Apache基金会的孵化项目，被认为是继MapReduce、GFS和BigQuery等之后，Google在大数据处理领域对开源社区的又一贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限、乱序，Web-Scale的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现。本文主要介绍Apac

大数据技术分享：十大开源的大数据技术

大数据已然成为当今热门的技术之一，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点受欢迎的十大开源的大数据技术。

03

【快速入门大数据】前沿技术拓展Spark,Flink,Beam

Spark、Flink、Beam Beam编写完适用于Spark、Flink使用

02

干货|盘点最受欢迎的十个开源大数据技术

大数据已然成为当今最热门的技术之一，正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术。 1 Hadoop 高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。 2 Spark 使用简单、支持所有重要的大数据语言（Scala、Python、Java、R）。拥有强大的生态系统，成长迅速，对microbatching/batching/SQL支持

08

大数据技术分享：十大开源的大数据技术

大数据已然成为当今热门的技术之一，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点受欢迎的十大开源的大数据技术。

03

TensorFlow数据验证(TensorFlow Data Validation)介绍：理解、验证和监控大规模数据

今天我们推出了TensorFlow数据验证(TensorFlow Data Validation, TFDV)，这是一个可帮助开发人员理解、验证和监控大规模机器学习数据的开源库。学术界和工业界都非常关注机器学习算法及其性能，但如果输入数据是错误的，所有这些优化工作都白费。理解和验证数据对于少量数据来说似乎是一项微不足道的任务，因为它们可以手动检查。然而，在实践中，数据太大，难以手动检查，并且数据通常大块连续地到达，因此有必要自动化和规模化数据分析、验证和监视任务。

04

LinkedIn 使用 Apache Beam 统一流和批处理

翻译自 LinkedIn Unifies Stream and Batch Processing with Apache Beam 。

01

谷歌开源的大数据处理项目 Apache Beam

Apache Beam 是什么？ Beam 是一个分布式数据处理框架，谷歌在今年初贡献出来的，是谷歌在大数据处理开源领域的又一个巨大贡献。数据处理框架已经很多了，怎么又来一个，Beam有什么优势？就是因为分布式数据处理技术现在太多了，让人目眩，所以Beam要解决这个问题。大数据处理领域发展得红红火火，新技术不断，有个笑话：一个程序员抱怨这个框架的API不好用，同事安慰说：别急，再等几分钟就有新框架出来了，应该会更好。 Hadoop MapReduce、Spark、Storm、Flink、Apex …

Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

Yelp 公司采用 Apache Beam 和 Apache Flink 重新设计了原来的数据流架构。该公司使用 Apache 数据流项目创建了统一而灵活的解决方案，取代了将交易数据流式传输到其分析系统（如 Amazon Redshift 和内部数据湖）的一组分散的数据管道。

01

大数据凉了？No，流式计算浪潮才刚刚开始！

AI 前线导读：本文重点讨论了大数据系统发展的历史轨迹，行文轻松活泼，内容通俗易懂，是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》，在探讨流式系统方面本书是市面上难得一见的深度书籍，非常值得学习。更多干货内容请关注微信公众号“AI 前线”（ID：ai-front）

06

听程序员界郭德纲怎么“摆”大数据处理

大规模数据处理技术如果从MapReduce论文算起，已经前后跨越了十六年。我们先沿着时间线看一下大规模数据处理的重要技术和它们产生的年代。后面从MapReduce到Spark、Flink、Beam的演进特性来看大规模数据处理计算引擎应该具备什么样的能力。

02

【钱塘号专栏】2016年是大数据风起云涌的一年

2016年是大数据风起云涌的一年。没人知道2017年将发生什么，但这不会阻止我们对新的一年作出各种预测。以下是最具有轰动效应的一些项目、事件和趋势，它们使2016年成为了大数据年。商业智能（BI）领袖衰落 2016年2月，红极一时的BI和可视化工具提供商Tableau发布财报，业绩令人大失所望，其市值在一天之内被腰斩。这预示着2016年的BI市场将动荡不安。几个月后，风暴再起，Qlik Technologies的股价暴跌一半多，在2016年6月被Thoma Bravo以大约30亿美元的价格收购。虽然

06

Apache Beam的Docker Demo

Apache Beam 是统一的批/流数据处理的编程模型。本文主要是参考官方文档，用 Docker 来快速跑起来一个用 Beam 来构建的 Flink 程序来处理数据的 Demo。

02

【头条】谷歌发布全新TensorFlow 库tf.Transform；百度将Ring Allreduce算法引入深度学习

谷歌发布全新 TensorFlow 库“tf.Transform” 谷歌表示，tf.Transform 将改善 TensorFlow 的数据预处理和格式转化难题。以下是谷歌对tf.Transform 的技术介绍： “今天我们正式发布 tf.Transform，一个基于 TensorFlow 的全新功能组件，它允许用户在大规模数据处理框架中定义预处理流水线（preprocessing pipelines），同时还可以将这些流水线导出，将其作为 TensorFlow 计算图（TensorFlow graph）

04

Beam-介绍

Beam提供了一套统一的API来处理两种数据处理模式（批和流），让我们只需要将注意力专注于在数据处理的算法上，而不用再花时间去对两种数据处理模式上的差异进行维护。

02

BDCC - Lambda VS Kappa

Lambda架构使用了批处理和流处理两种不同的处理方式来处理数据。数据首先通过流处理层进行实时处理，然后再通过批处理层进行离线处理，最后将两种处理结果合并起来得到最终的结果。Lambda架构的优点是可以同时处理实时和历史数据，并且可以保证数据的一致性，但是需要维护两套不同的代码和基础设施。

01

谷歌宣布开源 Apache Beam，布局下一代大数据处理平台

谷歌昨日宣布，Apache Beam 在经过近一年的孵化后终于从 Apache 孵化器毕业，现在已经是一个成熟的顶级 Apache 项目。这一成就直接反应了社区为把 Beam 转变为开放、专业、社区驱动的项目所付出的努力。 11个月前，谷歌以及一些合作伙伴向 Apachee 软件基金会捐赠了大量代码，从而得以开始孵化 Beam 项目。这些代码的大部分来自谷歌的 Cloud Dataflow SDK，是开发者用来编写流处理（streaming）和批处理管道（batch pinelines）的库，可以在任何支持

08

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！

Apache Flink 社区迎来了激动人心的两位数位版本号，Flink 1.10.0 正式宣告发布！作为 Flink 社区迄今为止规模最大的一次版本升级，Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现，包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化。

01

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！

Apache Flink 社区迎来了激动人心的两位数位版本号，Flink 1.10.0 正式宣告发布！作为 Flink 社区迄今为止规模最大的一次版本升级，Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现，包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化。

02

今天开始采用的十大大数据技术

稳固，企业实力和其他一切的基础。您需要YARN和HDFS以及Hadoop的基础架构作为主要数据存储并运行关键的大数据服务器和应用程序

05

Blink开源，Spark3.0，谁才能称霸大数据领域？

2018和2019年是大数据领域蓬勃发展的两年，自2019年伊始，实时流计算技术开始步入普通开发者视线，各大公司都在不遗余力地试用新的流计算框架，实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。

04

大数据开源框架技术汇总

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

02

Flink Forward 2019 系列文章--AI 相关(2)--Google for TensorFlow

TensorFlow Extended: An end-to-end machine learning platform for TensorFlow--Robert Crowe(Google)

02

Stream 主流流处理框架比较(2)

在上篇文章中，我们过了下基本的理论，也介绍了主流的流处理框架：Storm，Trident，Spark Streaming，Samza和Flink。今天咱们来点有深度的主题，比如，容错，状态管理或者性能。除此之外，我们也将讨论开发分布式流处理应用的指南，并给出推荐的流处理框架。

02

Apache Beam研究

Apache Beam是Google开源的，旨在统一批处理和流处理的编程范式，核心思想是将批处理和流处理都抽象成Pipeline、Pcollection、PTransform三个概念。Apache Beam本身是不具备计算功能的，数据的交换和计算都是由底层的工作流引擎（Apache Apex, Apache Flink, Apache Spark, and Google Cloud Dataflow）完成，由各个计算引擎提供Runner供Apache Beam调用，而Apache Beam提供了Java、Python、Go语言三个SDK供开发者使用。

01

python中的pyspark入门

PySpark是Python和Apache Spark的结合，是一种用于大数据处理的强大工具。它提供了使用Python编写大规模数据处理和分析代码的便利性和高效性。本篇博客将向您介绍PySpark的基本概念以及如何入门使用它。

02

实时流处理Storm、Spark Streaming、Samza、Flink对比

分布式流处理需求日益增加，包括支付交易、社交网络、物联网（IOT）、系统监控等。业界对流处理已经有几种适用的框架来解决，下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图（DAG）。 DAG是任务链的图形化表示，我们用它来描述流处理作业的拓扑。如下图，数据从sources流经处理任务链到sinks。单机可以运行DAG，但本篇文章主要聚焦在多台机器上运行D

05

Flink 介绍

Apache Flink是一个分布式处理引擎，用于在无界和有界数据流上进行有状态的计算。它在所有的通用集群环境中都可以运行，在任意规模下都可以达到内存级的计算速度。

00

通过 Java 来学习 Apache Beam

作者 | Fabio Hiroki 译者 | 明知山策划 | 丁晓昀 ‍在本文中，我们将介绍 Apache Beam，这是一个强大的批处理和流式处理开源项目，eBay 等大公司用它来集成流式处理管道，Mozilla 用它来在系统之间安全地移动数据。‍ 概览 Apache Beam 是一种处理数据的编程模型，支持批处理和流式处理。你可以使用它提供的 Java、Python 和 Go SDK 开发管道，然后选择运行管道的后端。 Apache Beam 的优势 Beam 的编程模型内

03

解读2018：13家开源框架谁能统一流计算？

AI 前线导读：2018 年接近尾声，AI 前线策划了“解读 2018”年终技术盘点系列文章，希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化。本文是实时流计算 2018 年终盘点，作者对实时流计算技术的发展现状进行了深入剖析，并对当前大火的各个主流实时流计算框架做了全面、客观的对比，同时对未来流计算可能的发展方向进行预测和展望。

04

大数据技术

如果没有一个好的开始，不妨试试一个坏的开始吧。因为一个坏的开始，总比没有开始强。而完美的开始，则永远都不会来到。

02

Flink从1.7到1.12版本升级汇总

最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数.

02

[大数据架构 ]Apache大数据项目目录

在使用BigData大约8年以上之后，我遇到了大量的项目。Esp Apache的运动对于BigData域非常强大。每个人都会提出一个针对特定解决方案的项目。但是，由于有这么多项目出现，我找不到一个可以查看它们的地方。所以，这就是这个页面背后的灵感。一站式，查看所有Apache BigData项目。当然，这个页面需要不断更新。如果您发现任何项目缺失，请发表评论

02

不惧流量持续上涨，BIGO 借助 Flink 与 Pulsar 打造实时消息系统

作者 | 陈航 BIGO 于 2014 年成立，是一家高速发展的科技公司。基于强大的音视频处理技术、全球音视频实时传输技术、人工智能技术、CDN 技术，BIGO 推出了一系列音视频类社交及内容产品，包括 Bigo Live（直播）和 Likee（短视频）等，在全球已拥有近 1 亿用户，产品及服务已覆盖超过 150 个国家和地区。 1挑战最初，BIGO 的消息流平台主要采用开源 Kafka 作为数据支撑。随着数据规模日益增长，产品不断迭代，BIGO 消息流平台承载的数据规模出现了成倍增长，下游的在线模型训练

05

使用Flink 与 Pulsar 打造实时消息系统

最初，BIGO 的消息流平台主要采用开源 Kafka 作为数据支撑。随着数据规模日益增长，产品不断迭代，BIGO 消息流平台承载的数据规模出现了成倍增长，下游的在线模型训练、在线推荐、实时数据分析、实时数仓等业务对消息流平台的实时性和稳定性提出了更高的要求。开源的 Kafka 集群难以支撑海量数据处理场景，我们需要投入更多的人力去维护多个 Kafka 集群，这样成本会越来越高，主要体现在以下几个方面：

02

Streaming SQL基础

基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用的SQL表达，即Streaming SQL。在《Streaming Systems》中，Streaming SQL　并不像 StreamCQL（基于Storm）属于 SQL-like，而是作为 Classic SQL 的扩展，兼容 Classic SQL 的所有规则。

05

开源数据交换（client）

exchange是要打造一个轻量级，高扩展性的数据交换平台，支持对结构化及无结构化的异构数据源之间的数据传输，在应用层上具有数据权限管控、节点服务高可用和多租户资源隔离等业务特性，而在数据层上又具有传输架构多样化、模块插件化和组件低耦合等架构特点。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭