开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

pyspark流未按顺序读取增量湖更改数据馈送

pyspark是一个用于大规模数据处理的Python库，它提供了丰富的工具和函数来处理和分析大数据集。在云计算领域中，pyspark常用于处理和分析存储在云上的大规模数据。

流未按顺序读取增量湖更改数据馈送是一个较为复杂的问题，需要结合多个概念和技术来解决。下面我将逐步解释相关概念和提供相应的解决方案。

增量湖（Incremental Lake）：增量湖是一种数据存储模式，用于存储和管理数据的增量更新。它通常用于处理大规模数据集的变化，以便有效地跟踪和处理数据的变更。
数据馈送（Data Feeding）：数据馈送是将数据从一个源传输到目标的过程。在这种情况下，数据馈送是指将增量湖中的更改数据传输到其他系统或应用程序中进行进一步处理或分析。

解决方案：要实现pyspark流未按顺序读取增量湖更改数据馈送，可以采用以下步骤：

配置数据源：首先，需要配置pyspark以连接到增量湖数据源。这可以通过指定数据源的连接信息、认证凭据和其他必要的配置参数来完成。
读取增量数据：使用pyspark的API函数，如readStream，从增量湖中读取数据。根据具体的增量湖实现，可以选择适当的数据读取方式，如批量读取、增量读取或增量更新。
数据处理和转换：对读取的增量数据进行必要的处理和转换操作，以满足后续分析或应用的需求。这可以包括数据清洗、转换、聚合等操作。
数据馈送：将处理后的数据馈送到目标系统或应用程序中。这可以通过使用pyspark的API函数，如writeStream，将数据写入到目标系统的数据存储或消息队列中。
监控和调优：在数据馈送过程中，需要监控和调优pyspark流的性能和稳定性。这可以包括监控数据处理速度、资源利用率、错误处理等方面。

腾讯云相关产品和产品介绍链接地址：腾讯云提供了多个与大数据处理和云计算相关的产品和服务，以下是一些推荐的产品和对应的介绍链接：

腾讯云数据湖服务（Tencent Cloud Data Lake）：腾讯云的数据湖服务提供了高性能、可扩展的数据存储和处理能力，适用于大规模数据处理和分析场景。详情请参考：https://cloud.tencent.com/product/datalake
腾讯云流计算 Oceanus（Tencent Cloud StreamCompute Oceanus）：腾讯云的流计算服务Oceanus提供了实时数据处理和分析能力，可用于处理增量数据和流式数据。详情请参考：https://cloud.tencent.com/product/oceanus

请注意，以上仅为示例产品，实际选择产品时应根据具体需求和场景进行评估和选择。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

在 Halodoc，我们始终致力于为最终用户简化医疗保健服务，随着公司的发展，我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量，以解决我们决定改进数据平台架构的问题。在我们之前的博客中，我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。在这篇博客中，我们将讨论我们的新架构、涉及的组件和不同的策略，以拥有一个可扩展的数据平台。

02

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

01

Robinhood基于Apache Hudi的下一代数据湖实践

Robinhood 的使命是使所有人的金融民主化。Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。不仅在数据存储规模和查询方面，也在我们在数据湖支持的用例方面，我们从最初的数据湖版本[1]都取得了很大的进展。在这篇博客中，我们将描述如何使用各种开源工具构建基于变更数据捕获的增量摄取，以将我们核心数据集的数据新鲜延迟从 1 天减少到 15 分钟以下。我们还将描述大批量摄取模型中的局限性，以及在大规模操作增量摄取管道时学到的经验教训。

02

基于 XTable 的 Dremio Lakehouse分析

这种开放性和灵活性的方法使数据存储和使用方式发生了转变。如今，客户可以选择在云对象存储（如 Amazon S3、Microsoft Azure Blob Storage或 Google Cloud Storage）中以开放表格式存储数据。数据由数据所有者全资拥有和管理，并保存在其安全的 Virtual Private Cloud （VPC）帐户中。用户可以为其工作负载提供正确类型的查询引擎，而无需复制数据。这创建了一个面向未来的架构，可以在需要时将新工具添加到技术栈中。

01

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：

02

数据仓库与数据湖与湖仓一体：概述及比较

随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户，公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计，2017 年每天会生成 2.5 百亿字节的数据，到 2025 年，这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据，那么这些数据又有什么用呢？针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。

01

基于Apache Hudi和Debezium构建CDC入湖管道

当想要对来自事务数据库（如 Postgres 或 MySQL）的数据执行分析时，通常需要通过称为更改数据捕获[4] CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统。Debezium 是一种流行的工具，它使 CDC 变得简单，其提供了一种通过读取更改日志[5]来捕获数据库中行级更改的方法，通过这种方式 Debezium 可以避免增加数据库上的 CPU 负载，并确保捕获包括删除在内的所有变更。现在 Apache Hudi[6] 提供了 Debezium 源连接器，CDC 引入数据湖比以往任何时候都更容易，因为它具有一些独特的差异化功能[7]。Hudi 可在数据湖上实现高效的更新、合并和删除事务。Hudi 独特地提供了 Merge-On-Read[8] 写入器，与使用 Spark 或 Flink 的典型数据湖写入器相比，该写入器可以显着降低摄取延迟[9]。最后，Apache Hudi 提供增量查询[10]，因此在从数据库中捕获更改后可以在所有后续 ETL 管道中以增量方式处理这些更改下游。

02

Dive into Delta Lake | Delta Lake 尝鲜

Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。

01

计算引擎之下，存储之上 - 数据湖初探

随着移动互联网，物联网技术的发展，数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展，即 BI 到 AI 的转变。

04

使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用

为了应对这些挑战，像 Streamlit[1] 这样的低代码工具作为 Python 生态系统的包装器，允许将 API、模型和业务逻辑变为现实。Streamlit 支持从数据库、API 和文件系统等各种来源轻松使用数据，从而轻松集成到应用程序中。在这篇博客中，我们将重点介绍如何使用直接来自开放湖仓一体平台的数据来构建数据应用。

01

实时方案之数据湖探究调研笔记

数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。

03

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要：今天我们就来解构数据湖的核心需求，同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案，帮助用户更好地针对自身场景来做数据湖方案选型。

02

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

对话Apache Hudi VP，洞悉数据湖的过去现在和未来

Apache Hudi是一个开源数据湖管理平台，用于简化增量数据处理和数据管道开发，该平台可以有效地管理业务需求，例如数据生命周期，并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。

02

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

基于Flink CDC打通数据实时入湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术，来解决业务数据实时入湖相关的问题。

02

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台，将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式，它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出，牢牢扎根于 Hadoop 生态系统，解释了名称背后的含义：Hadoop Upserts Deletes and Incrementals。它是为管理 HDFS 上大型分析数据集的存储而开发的。Hudi 的主要目的是减少流数据摄取过程中的延迟。

02

聊聊流式数据湖Paimon(一)

Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。

01

重磅 | Apache Spark 社区期待的 Delta Lake 开源了

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。目前 Delta Lake 项目地址为 https://delta.io/，代码维护地址 https://github.com/delta-io/delta。

03

聊聊流式数据湖Paimon(二)

Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖；CDC 数据来自数据库。一般来说，分析需求是不会直接查询数据库的。

01

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台，将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式，它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出，牢牢扎根于 Hadoop 生态系统，解释了名称背后的含义：Hadoop Upserts Deletes and Incrementals。它是为管理 HDFS 上大型分析数据集的存储而开发的。Hudi 的主要目的是减少流数据摄取过程中的延迟。

01

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

数据仓库被认为是对结构化数据执行分析的标准，但它不能处理非结构化数据。包括诸如文本、图像、音频、视频和其他格式的信息。此外机器学习和人工智能在业务的各个方面变得越来越普遍，它们需要访问数据仓库之外的大量信息。

02

Apache四个大型开源数据和数据湖系统

管理大数据所需的许多功能是其中一些是事务，数据突变，数据校正，流媒体支持，架构演进，因为酸性事务能力Apache提供了四种，用于满足和管理大数据。

02

重磅 | Delta Lake正式加入Linux基金会，重塑数据湖存储标准

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。

03

BDCC- 数据湖体系

数据湖是一种存储系统，底层包括不同的文件格式及湖表格式，可存储大量非结构化和半结构化的原始数据。

03

Apache Hudi如何加速传统批处理模式？

在我们的用例中1-10% 是对历史记录的更新。当记录更新时，我们需要从之前的 updated_date 分区中删除之前的条目，并将条目添加到最新的分区中，在没有删除和更新功能的情况下，我们必须重新读取整个历史表分区 -> 去重数据 -> 用新的去重数据覆盖整个表分区

03

挑战 Spark 和 Flink？大数据技术栈的突围和战争｜盘点

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或缺的基础设施。然而，在这个时刻，我们不禁要问：当前的大数据架构是否已经趋于完美？2023 年，伴随着人工智能的跃变式爆发，数据平台将如何演进，以适应未来的数据使用场景？

01

Delta Lake的竞争对手Hudi（Alpha版）

Delta Lake肯定不是第一个数据湖产品。对于存储这块，CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码，理解上算不得成熟，所以这篇文章我加了限定词Alpha版，后续可能会Alpha01....Beta，当然最后肯定是没有标记，那就表示我觉得我的理解差不多了，文章可能定型了。

01

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x 的集成支持。

04

尘锋信息基于 Apache Paimon 的流批一体湖仓实践

尘锋信息 (www.dustess.com) 是基于企业微信生态的一站式私域运营管理解决方案供应商，致力于成为全行业首席私域运营与管理专家，帮助企业构建数字时代私域运营管理新模式，助力企业实现高质量发展。

04

网易数据湖探索与实践-范欣欣

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

02

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们的目标为：建设口径统一的实时消耗数据，结合BI工具的自动化配置和展现能力，满足业务实时多维消耗分析，提高数据运营的效率和数据准确性。

01

最新大厂数据湖面试题，知识点总结（上万字建议收藏）

本文目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖？区别在于？八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比

02

Apache Hudi - 我们需要的开放数据湖仓一体平台

毋庸置疑，Hudi 是一个非常成功和有影响力的开源项目，它已经为许多公司提供了 7+ 年，在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙事，很高兴看到一些数据来获得观点。

01

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们的目标为：建设口径统一的实时消耗数据，结合BI工具的自动化配置和展现能力，满足业务实时多维消耗分析，提高数据运营的效率和数据准确性。

01

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

01

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

03

数据湖 | Apache Hudi 设计与架构最强解读

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

02

聊聊流式数据湖Paimon(三)

如果表没有定义主键，则默认情况下它是仅追加表类型(Append Only Table)。根据桶(Bucket)的定义，我们有两种不同的仅追加模式："Append For Scalable Table"和"Append For Queue"；两种模式支持不同的场景，提供不同的功能。只能向表中插入一条完整的记录。不支持删除或更新，并且不能定义主键。此类表适合不需要更新的用例（例如日志数据同步）。

01

农业银行湖仓一体实时数仓建设探索实践

在数字化转型驱动下，实时化需求日益成为金融业数据应用新常态。传统离线数仓“T+N”数据供给模式，难于满足“T+0”等高时效场景需求；依托Storm、Spark Streaming、Flink等实时计算框架提供“端到端”的实时加工模式，无法沉淀实时数据资产，存在实时数据复用性低、烟囱式垂直建设等不足。

04

Apache Hudi：统一批和近实时分析的存储和服务

一篇由三位Hudi PMC在2018年做的关于Hudi的分享，介绍了Hudi产生的背景及设计，现在看来也很有意义。

03

流数据湖平台Apache Paimon（一）概述

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日，FTS进入 Apache 软件基金会 (ASF) 的孵化器，改名为 Apache Paimon (incubating)。

05

Flink在中原银行的实践

在构建实时场景的过程中，如何快速、正确的实时同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Apache Flink和数据湖两种技术，来解决业务数据实时入湖的相关问题。两者的结合能良好的支持实时数据落地存储，借助Apache Flink出色的流批一体能力，可以为用户构建一个准实时数仓，满足用户准实时业务探索。

04

Uber基于Apache Hudi构建PB级数据湖实践

从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年，我们履行承诺，进一步将其捐赠给了Apache Software Foundation，差不多一年半之后，Apache Hudi毕业成为Apache Software Foundation顶级项目。为纪念这一里程碑，我们想分享Apache Hudi的构建、发布、优化和毕业之旅，以使更大的大数据社区受益。

02

ApacheHudi常见问题汇总

如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。

02

Apache Hudi在华米科技的应用-湖仓一体化改造

华米科技是一家基于云的健康服务提供商，拥有全球领先的智能可穿戴技术。在华米科技，数据建设主要围绕两类数据：设备数据和APP数据，这些数据存在延迟上传、更新频率高且广、可删除等特性，基于这些特性，前期数仓ETL主要采取历史全量+增量模式来每日更新数据。随着业务的持续发展，现有数仓基础架构已经难以较好适应数据量的不断增长，带来的显著问题就是成本的不断增长和产出效率的降低。

01

MySQL的备份

数据库备份是DBA的典型任务，可以将数据从一个系统传输到另外一个系统，也可以基于生产系统的特定状态创建一个开发服务器。除此之外，备份还用于数据库恢复，可以将一个发生故障的系统恢复，也可以将系统恢复到发送用户错误之前的特定状态。利用备份的系统可以将其与生产系统分离，在不影响生产系统的性能的前提下，对数据进行审计和分析。

01

揭秘Robinhood扩展和管理PB级规模Lakehouse架构

Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现，Robinhood 的数据团队如何基于 Apache Hudi 和相关 OSS 服务来处理数 PB 规模的指数级增长。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭