开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何为raw区内的所有表执行Glue ETL作业(从我的raw区转换到parquet以进行处理)？

要为raw区内的所有表执行Glue ETL作业，将数据转换为parquet格式以进行处理，可以按照以下步骤进行操作：

创建一个Glue ETL作业：在腾讯云的Glue控制台中，创建一个新的ETL作业。选择合适的作业名称和角色，并确保选择正确的数据源和目标。
配置数据源：在作业配置页面中，选择raw区作为数据源。可以选择使用Glue数据目录或者直接指定数据源路径。
配置目标数据：选择将数据转换为parquet格式，并指定转换后的数据存储路径。可以选择将数据存储在腾讯云的对象存储服务COS中。
定义数据转换：使用Glue提供的转换功能，根据需要对数据进行清洗、转换和过滤。可以使用Glue提供的图形化界面或者编写自定义的脚本。
配置作业调度：设置作业的调度方式，可以选择手动触发或者定时触发。可以根据需求设置作业的执行频率和时间。
启动作业：保存并启动Glue ETL作业。作业将开始执行，将raw区内的所有表数据转换为parquet格式并存储到指定的目标路径。

通过以上步骤，可以为raw区内的所有表执行Glue ETL作业，将数据转换为parquet格式以进行后续处理。腾讯云的Glue服务提供了强大的数据转换和处理能力，可以帮助用户高效地进行数据清洗和转换操作。

腾讯云相关产品推荐：

腾讯云Glue：提供完全托管的ETL服务，可帮助用户构建、自动化和监控数据流水线。
腾讯云对象存储COS：提供高可靠、低成本的对象存储服务，适用于存储和处理大规模数据。
腾讯云数据仓库CDW：提供高性能、弹性扩展的数据仓库服务，可用于存储和分析大规模数据。

更多关于腾讯云Glue和相关产品的详细信息，请访问腾讯云官方网站：

腾讯云Glue产品介绍：https://cloud.tencent.com/product/glue
腾讯云对象存储COS产品介绍：https://cloud.tencent.com/product/cos
腾讯云数据仓库CDW产品介绍：https://cloud.tencent.com/product/cdw

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

提升数据分析效率：Amazon S3 Express One Zone数据湖实战教程

（声明：本篇文章授权活动官方亚马逊云科技文章转发、改写权，包括不限于在亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道）

01

100PB级数据分钟级延迟：Uber大数据平台（下）

到2017年初，我们的大数据平台被整个公司的工程和运营团队使用，使他们能够在同一个地方访问新数据和历史数据。用户可以通过同一个UI门户轻松访问不同大数据平台的数据。我们的计算集群中有超过100PB的数据和100000个vcores。每天支持100,000个Presto查询， 10,000个Spark作业，以及 20,000个Hive查询。我们的Hadoop分析架构遇到了可扩展性限制，许多服务受到高数据延迟的影响。

02

基于Apache Parquet™的更细粒度的加密方法

数据访问限制、保留和静态加密是基本的安全控制。本博客介绍了uber如何构建和利用开源 Apache Parquet™ 的细粒度加密功能以统一的方式支持所有 3 个控件。特别是，我们将重点关注以安全、可靠和高效的方式设计和应用加密的技术挑战。本文还将分享uber在生产和大规模管理系统的推荐实践方面的经验。

03

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

在 Halodoc，我们始终致力于为最终用户简化医疗保健服务，随着公司的发展，我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量，以解决我们决定改进数据平台架构的问题。在我们之前的博客中，我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。在这篇博客中，我们将讨论我们的新架构、涉及的组件和不同的策略，以拥有一个可扩展的数据平台。

02

数据湖学习文档

参考资料：https://segment.com/blog/cultivating-your-data-lake/

02

数据湖火了，那数据仓库怎么办？

这是《未来简史》中提出的三个革命性观点。一本书短短百页，让我们看到了世界颠覆性的变化，从计算机，到互联网，再到大数据、人工智能，所有的变化都在以一种肉眼可观却又无法捕捉的状态悄然发生着，而推动变化发生的背后，则是数据价值的提升。

01

Apache Paimon核心原理和Flink应用进阶

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章，你最好收藏一波。

01

ApacheHudi常见问题汇总

如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。

02

盘点13种流行的数据处理工具

作者：所罗伯·斯里瓦斯塔瓦（Saurabh Shrivastava）、内拉贾利·斯里瓦斯塔夫（Neelanjali Srivastav）

01

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

如何使用Hue上创建一个完整Oozie工作流

在使用CDH集群中经常会有一些特定顺序的作业需要在集群中运行，对于需要多个作业顺序执行的情况下，如何能够方便的构建一个完整的工作流在CDH集群中执行，前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和Spark2的Oozie工作流》、《如何使用Hue创建Spark2的Oozie工作流（补充）》、《如何在Hue中创建Ssh的Oozie工作流》。本篇文章主要讲述如何使用Hue创建一个以特定顺序运行的Oozie工作流。本文工作流程如下：

06

AWS培训：Web server log analysis与服务体验

可让您轻松收集、处理和分析实时流数据，以便您及时获得见解并对新信息快速做出响应。Amazon Kinesis 提供多种核心功能，可以经济高效地处理任意规模的流数据，同时具有很高的灵活性，让您可以选择最符合应用程序需求的工具。借助 Amazon Kinesis，您可以获取视频、音频、应用程序日志和网站点击流等实时数据，也可以获取用于机器学习、分析和其他应用程序的 IoT 遥测数据。借助 Amazon Kinesis，您可以即刻对收到的数据进行处理和分析并做出响应，无需等到收集完全部数据后才开始进行处理。

01

如何在4周内构建数据仓库，第2部分

我已经谈到了构建属于你自己的数据仓库需要采取的前两个步骤（请参阅：如何在4周内构建数据仓库，第1部分）。选择架构和DBMS是需要完成的第一件事情。到目前为止，我们已经有了需要复制的数据的概念以及我们想要存储数据的数据库。缺失的部分就是复制的过程。我们如何存储复制的数据？我们如何转换数据？这些是我在这篇文章中所要回答的问题。

06

Spark Structured Streaming 使用总结

在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据，然而建立这么一个应用需要解决多个问题：

06

Apache Hudi 0.14.0版本重磅发布！

Apache Hudi 0.14.0 标志着一个重要的里程碑，具有一系列新功能和增强功能。其中包括引入Record Level Index、自动生成记录键、用于增量读取的 hudi_table_changes函数等等。值得注意的是，此版本还包含对 Spark 3.4 的支持。在 Flink 方面，0.14.0 版本带来了一些令人兴奋的功能，例如一致哈希索引支持、支持Flink 1.17 以及支持更新和删除语句。此外此版本还升级了Hudi表版本，提示用户查阅下面提供的迁移指南。我们鼓励用户在采用 0.14.0 版本之前查看重大特性、重大变化和行为变更。

03

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

01

Hive表迁移到Iceberg表实践教程

使用 Apache Iceberg 作为您的数据湖表格式可以实现更快的数据湖分析、时间旅行、分区演化、ACID 事务等。Apache Iceberg 是实现开放式 Lakehouse 架构的关键部分，因此您可以降低数据仓库的成本并避免供应商锁定。

05

AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift（数仓）查询Hudi表，现在它终于来了。

05

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

04

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

我在2017年写了一本名为《Hadoop构建数据仓库实践》的书。在这本书中，较为详细地讲解了如何利用Hadoop（Cloudera's Distribution Including Apache Hadoop，CDH）生态圈组件构建传统数据仓库。例如，使用Sqoop从关系数据库全量或增量抽取数据到Hadoop系统，使用Hive进行数据转换和装载处理等等。作为进阶，书中还说明了数据仓库技术中的渐变维、代理键、角色扮演维度、层次维度、退化维度、无事实事实表、迟到事实、累计度量等常见问题在Hadoop上的处理。它们都是通过Hive SQL来实现的，其中有些SQL语句逻辑复杂，可读性也不是很好。

07

下一个风口-基于数据湖架构下的数据治理

随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用，传统的数据仓库模式，在快速发展的企业面前已然显的力不从心。数据湖，是可以容纳大量的原始数据的存储库和处理系统，已经成为企业应用大数据的重要工具。数据湖可以更好地支撑数据预测分析、跨领域分析、主动分析、实时分析以及多元化结构化数据分析，可以加速从数据到价值的过程，打造相应业务能力。而有效的数据治理才是数据资产形成的必要条件，同时数据治理是一个持续性过程，也是数据湖逐步实现数据价值的过程。未来在多方技术趋于融合，落地场景将不断创新，数据湖、数据治理或将成为新的技术热点。

05

如何在Hadoop中处理小文件-续

Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件，以及常见的处理方法。这里Fayson再补充一篇文章进行说明。

08

什么是Hudi?

Hudi（发音为“hoodie”）摄取与管理处于DFS(HDFS 或云存储)之上的大型分析数据集并为查询访问提供三个逻辑视图。

03

Uber基于Apache Hudi构建PB级数据湖实践

从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年，我们履行承诺，进一步将其捐赠给了Apache Software Foundation，差不多一年半之后，Apache Hudi毕业成为Apache Software Foundation顶级项目。为纪念这一里程碑，我们想分享Apache Hudi的构建、发布、优化和毕业之旅，以使更大的大数据社区受益。

02

PB级海量数据服务平台架构设计实践

基于PB级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：实践背景该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：当前现状收集了当前已有数据、分工、团队的一些基本情况，如下所示：数据收集和基础数据加工有专门的Team在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。数据二次加工

06

「大数据系列」:Apache Hive 分布式数据仓库项目介绍

Apache Hive™数据仓库软件有助于读取，编写和管理驻留在分布式存储中的大型数据集并使用SQL语法进行查询

02

Apache Hudi 架构原理与最佳实践

Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。

03

基于Apache Hudi的多库多表实时入湖最佳实践

CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析MySQL数据库的Binlog日志捕获变更数据，而不是通过SQL Query源表捕获变更数据。Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID和并发写支持。Hudi不是一个Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在S3(也支持其它对象存储和HDFS)，Hudi来决定数据以什么格式存储在S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID等特性。Hudi通过Spark，Flink计算引擎提供数据写入, 计算能力，同时也提供与OLAP引擎集成的能力，使OLAP引擎能够查询Hudi表。从使用上看Hudi就是一个JAR包，启动Spark, Flink作业的时候带上这个JAR包即可。Amazon EMR 上的Spark，Flink，Presto ，Trino原生集成Hudi, 且EMR的Runtime在Spark，Presto引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb等)中的数据通过CDC的方式以分钟级别(1minute+)延迟写入Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表CDC数据并行写入Hudi，降低开发维护成本。第二，源端Schema变更如何同步到Hudi表。第三，使用Hudi增量查询构建数仓层次比如ODS->DWD->DWS(各层均是Hudi表)，DWS层的增量聚合如何实现。本篇文章推荐的方案是: 使用Flink CDC DataStream API(非SQL)先将CDC数据写入Kafka，而不是直接通过Flink SQL写入到Hudi表，主要原因如下，第一，在多库表且Schema不同的场景下，使用SQL的方式会在源端建立多个CDC同步线程，对源端造成压力，影响同步性能。第二，没有MSK做CDC数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC数据写入到MSK后，推荐使用Spark Structured Streaming DataFrame API或者Flink StatementSet 封装多库表的写入逻辑，但如果需要源端Schema变更自动同步到Hudi表，使用Spark Structured Streaming DataFrame API实现更为简单，使用Flink则需要基于HoodieFlinkStreamer做额外的开发。Hudi增量ETL在DWS层需要数据聚合的场景的下，可以通过Flink Streaming Read将Hudi作为一个无界流，通过Flink计算引擎完成数据实时聚合计算写入到Hudi表。

01

腾讯云大数据技术介绍-数据查询方法

上节我们讲了如何利用MapReduce 快速的来查询数据：https://cloud.tencent.com/developer/article/1878432

03

使用Hive SQL插入动态分区的Parquet表OOM异常分析

当运行“INSERT ... SELECT”语句向Parquet或者ORC格式的表中插入数据时，如果启用了动态分区，你可能会碰到以下错误，而导致作业无法正常执行。

08

Impala Schema 设计原则

使用本主题中的原则可以构建优化且可伸缩的Schema，并与现有的数据管理流程很好集成。

02

Spark Structured Streaming的高效处理-RunOnceTrigger

传统意义上，当人们想到流处理时，诸如”实时”，”24*7”或者”always on”之类的词语就会浮现在脑海中。生产中可能会遇到这种情况，数据仅仅会在固定间隔到达，比如每小时，或者每天。对于这些情况，对这些数据进行增量处理仍然是有益的。但是在集群中运行一个24*7的Streaming job就显得有些浪费了，这时候仅仅需要每天进行少量的处理即可受益。幸运的是，在spark 2.2版本中通过使用 Structured Streaming的Run Once trigger特性，可获得Catalyst Opti

08

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

03

Lakehouse: 统一数据仓库和高级分析的新一代开放平台

数仓架构在未来一段时间内会逐渐消亡，会被一种新的Lakehouse架构取代，该架构主要有如下特性

03

数据湖 | Apache Hudi 设计与架构最强解读

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

02

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

02

流数据湖平台Apache Paimon（三）Flink进阶使用

当Sorted Run数量较少时，Paimon writer 将在单独的线程中异步执行压缩，因此记录可以连续写入表中。然而，为了避免Sorted Runs的无限增长，当Sorted Run的数量达到阈值时，writer将不得不暂停写入。下表属性确定阈值。

04

Grab 基于 Apache Hudi 实现近乎实时的数据分析

在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。

01

Kettle工具——Spoon、Kitchen、Pan、Carte

Spoon是Kettle的集成开发环境（IDE）。它基于SWT提供了图形化的用户接口，主要用于ETL的设计。在Kettle安装目录下，有启动Spoon的脚本。如Windows下的Spoon.bat，类UNIX下的spoon.sh。Windows用户还可以通过执行Kettle.exe启动Spoon。Spoon的屏幕截图如图1所示。

01

如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？

市场的变幻，政策的完善，技术的革新……种种因素让我们面对太多的挑战，这仍需我们不断探索、克服。

02

一个典型的架构演变案例：金融时报数据平台

本文最初发布于金融时报产品 & 技术博客，经原作者授权由 InfoQ 中文站翻译并分享。

02

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们的目标为：建设口径统一的实时消耗数据，结合BI工具的自动化配置和展现能力，满足业务实时多维消耗分析，提高数据运营的效率和数据准确性。

01

Yelp 的 Spark 数据血缘建设实践！

在这篇博文中，我们介绍了 Spark-Lineage，这是一种内部产品，用于跟踪和可视化 Yelp 的数据是如何在我们的服务之间处理、存储和传输的。

02

【案例】某城商行——数据平台建设项目

数据猿导读随着城商行业务的发展，银行内部业务系统的处理日益加重，处理逻辑日益复杂。若以传统方式直接从数据来源系统供给分析类业务系统，而又不影响各个业务系统的处理效率已经不现实。本篇案例为数据猿推出

06

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供足够的时间来完成运行。否则，Cleaner可能会删除该作业正在读取或可能被其读取的文件，并使该作业失败。通常，默认配置为10会允许每30分钟运行一次提取，以保留长达5（10 * 0.5）个小时的数据。如果以繁进行摄取，或者为查询提供更多运行时间，可增加 hoodie.cleaner.commits.retained配置项的值。

04

ETL工具-Kettle Spoon教程

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，了解并掌握一种etl工具的使用，必不可少，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，使用它减少了非常多的研发工作量，提高了我们的工作效率。

01

大数据上的SQL：运用Hive、Presto与Trino实现高效查询

在大数据时代，SQL作为数据分析的通用语言，其在处理海量数据集时的作用尤为重要。传统的RDBMS在面对TB乃至PB级别的数据时，往往会因性能瓶颈和扩展性限制而显得力不从心。因此，为适应大数据场景，Apache Hive、Presto（现更名为Trino）等专门针对大数据查询优化的工具应运而生，它们不仅保留了SQL的易用性，还引入了诸多创新技术以实现对大规模数据的高效查询。本文将深入剖析Hive、Presto（Trino）的特点、应用场景，并通过丰富的代码示例展示如何在大数据环境中利用这些工具进行高性能SQL查询。

01

【数据湖】在 Azure Data Lake Storage gen2 上构建数据湖

介绍一开始，规划数据湖似乎是一项艰巨的任务——决定如何最好地构建数据湖、选择哪种文件格式、是拥有多个数据湖还是只有一个数据湖、如何保护和管理数据湖。并非所有这些都需要在第一天回答，有些可能通过反复试验来确定。构建数据湖没有明确的指南，每个场景在摄取、处理、消费和治理方面都是独一无二的。在之前的博客中，我介绍了数据湖和 Azure 数据湖存储 (ADLS) gen2 的重要性，但本博客旨在为即将踏上数据湖之旅的人提供指导，涵盖构建数据湖的基本概念和注意事项ADLS gen2 上的数据湖。数据湖规划

01

对话Apache Hudi VP，洞悉数据湖的过去现在和未来

Apache Hudi是一个开源数据湖管理平台，用于简化增量数据处理和数据管道开发，该平台可以有效地管理业务需求，例如数据生命周期，并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。

02

实战|使用Spark Streaming写入Hudi

传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭