RDS etl 数据_RDS etl 数据库_RDS etl 数据仓库 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

基于Hadoop生态圈的数据仓库实践 —— ETL（二）

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（十一）

十一、多重星型模式从“进阶技术”开始，已经通过增加列和表扩展了数据仓库，在进阶技术（五） “快照”里增加了第二个事实表，month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表（第一个是在开始建立数据仓库时创建的sales_order_fact表）。有了这两个事实表的数据仓库就是一个标准的双星型模式。本节将在现有的维度数据仓库上再增加一个新的星型结构。与现有的与销售关联的星型结构不同，新的星型结构关注的是产品业务领域。新的星型结构有一个事实表和一个维度表，用于存储数据仓库中的产品数据。 1. 一个新的星型模式下图显示了扩展后的数据仓库模式。

OushuDB入门（四）——数仓架构篇

数据仓库建设之数仓架构

大家好，不管是离线数仓与实时数仓，建设的时候都少不了架构设计，今天来学习一下常见的架构及发展演变过程。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

五、快照前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。有些用户，尤其是管理者，经常要看某个特定时间点的数据。也就是说，他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。周期快照是在一个给定的时间对事实表进行一段时期的总计。例如，一个月销售订单周期快照汇总每个月底时总的销售订单金额。累积快照用于跟踪事实表的变化。例如，数据仓库可能需要累积（存储）销售订单从下订单的时间开始，到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点，销售订单处理状态的累积快照。下面说明周期快照和累积快照的细节问题。 1. 周期快照下面以销售订单的月底汇总为例说明如何实现一个周期快照。首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（五）

HAWQ取代传统数仓实践（六）——增加列

本文介绍了在技术社区中，如何从技术角度、业务角度、架构角度、运维角度等多个维度出发，进行社区技术内容的分类、规划、建设、管理、优化，并阐述了在此过程中的技术选型和社区机制建设。同时，本文还分享了基于机器学习和数据挖掘的技术内容管理方法，以及面向知识图谱、智能问答、科技情报等场景的技术实践。

存储过程实现上亿级图数据分块ETL

图数据分块ETL 图数据ETL的一个场景是需要将上亿条上百G的原始数据构建为图数据，在内存不够用的情况下保证数据构建过程可以平稳顺利运行，需要使用数据分块的方式进行构建。如下通过存储过程实现数据分块方案。该解决方案依赖于原始数据库的自增ID【上百G超大CSV文件的构建可以导入MySQL之后构建】，经过测试可以在生产环境正常运行并且避免过多的内存消耗。函数与过程功能介绍从关系数据库加载数据 apoc.load.jdbc 函数实现数据块ID拆分 olab.ids.batch 迭代处理数据块 apoc.pe

HAWQ取代传统数仓实践（二）——搭建示例模型（MySQL、HAWQ）

本文通过分析2023年5月15日的腾讯财报数据，从多个方面揭示了腾讯在2023年5月15日所呈现的财务、经营和战略状况。

HAWQ取代传统数仓实践（十六）——事实表技术之迟到的事实

一、迟到的事实简介数据仓库通常建立于一种理想的假设情况下，这就是数据仓库的度量（事实记录）与度量的环境（维度记录）同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时，就能够

HAWQ取代传统数仓实践（七）——维度表技术之维度子集

文章主要介绍了如何基于元数据进行维表数据的增量抽取和变更。主要包括三个部分：1. 基于元数据定义的维度表数据模型，包括定义的表、字段、数据模型；2. 基于元数据定义的维度表数据抽取，使用SQL语句从源系统中抽取数据；3. 基于元数据定义的维度表数据变更，使用SQL语句对目标系统中的数据进行变更。

TiDB 助力客如云餐饮 SaaS 服务

客如云成立于 2012 年，是全球领先、国内最大的 SaaS 系统公司。目前面向餐饮、零售等服务业商家，提供软硬一体的新一代智能化前台、收银等 SaaS 云服务，包括预订、排队、外卖、点餐、收银、会员管理、进销存等系统服务，并将数据实时传达云端。我们是客如云的大数据基础架构组，负责公司的大数据架构和建设工作，为公司提供大数据基础数据服务。

没必要非得固守纯向量数据库！专访亚马逊云科技数据库负责人

生成式 AI 时代的到来催生了向量数据库日益增长的需求和应用。亚马逊云科技也在多种数据库服务上实现向量搜索功能，并且他们也认为这是任何数据库都应当具备的一项核心功能。那亚马逊云科技在数据库产品上有什么样的规划、他们如何看待纯向量数据库需求？针对上述问题，近期在 re:Invent 现场，InfoQ 采访了亚马逊云科技数据库和迁移副总裁 Jeff Carter。

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（一）

一、增加列数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本节说明如何在客户维度表和销售订单事实表上添加列，并在新列上应用SCD2，以及对定时装载脚本所做的修改。假设需要在客户维度中增加送货地址属性，并在销售订单事实表中增加数量度量值。先看一下增加列时模式发生的变化。修改后源数据库模式如下图所示。

HAWQ取代传统数仓实践（十）——维度表技术之杂项维度

本文描述了在电商场景中，如何使用阿里云MaxCompute来实现电商订单数据的ETL处理。主要包括了以下步骤：首先在MaxCompute中创建项目，然后使用DataHub模块中的Sqoop组件来实现数据的导入，接着使用DataHub中的Hive表作为外部表，通过Hive SQL进行数据处理。在处理过程中，使用MaxCompute提供的内置函数和UDF进行数据处理，最后将处理后的数据导出到Hdfs。

【踩坑实录】-java.sql.SQLException: The MySQL server is running with the LOCK_WRITE_GROWTH option so it ca

使用阿里dataphin工具将开发好的ads表数据推送到bi报表后台mysql库表中，突然报错

印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0

数据是每项技术业务的支柱，作为一个健康医疗技术平台，Halodoc 更是如此，用户可以通过以下方式与 Halodoc 交互：

Kettle构建Hadoop ETL实践（六）：数据转换与装载

本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前，先简要介绍数据清洗的概念，并说明如何使用Kettle完成常见的数据清洗工作。由于本示例中Kettle在Hadoop上的ETL实现依赖于Hive，所以之后对Hive做一个概括的介绍，包括它的体系结构、工作流程和优化。最后用完整的的Kettle作业演示如何实现销售订单数据仓库的数据转换与装载。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（三）

三、维度子集有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度的数据少，因此更易使用，查询也更快。本节中将准备两个特定维度，它们均取自现有的维度：月份维度（日期维度的子集），Pennsylvania州客户维度（客户维度的子集）。 1. 建立月份维度表执行下面的脚本建立月份维度表。注意月份维度不包含promo_ind列，该列不适用月层次上，因为一个月中可能有多个促销期，而且并不是一个月中的每一天都是促销期。促销标记适用于天这个层次。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

云数据库技术行业动态@2022-09-16

最近数据库行业还是发生一些事情，例如：NebulaGraph获得获得数千万美元的A轮融资，Oracle将在AWS支持MySQL HeatWave服务，VLDB 2022在悉尼举行，来自中国多篇成果被接收，等等，查看原文

数据治理方案技术调研 Atlas VS Datahub VS Amundsen

数据治理意义重大，传统的数据治理采用文档的形式进行管理，已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。

关于数据、数据流、数据管道的一些看法（一）

最近间接的获取了不少关于数据流，及数据融合，管道等方面的知识，由于脑子内存小，不写出来很快就会忘记，所以还是硬着头皮写一写。

数据，数据流，数据管道

最近比较忙，不过最近间接的获取了不少关于数据流，及数据融合，管道等方面的知识，由于脑子内存小，不写出来很快就会忘记，所以还是硬着头皮写一写。

基于Hadoop生态圈的数据仓库实践 —— ETL（一）

HAWQ取代传统数仓实践（十四）——事实表技术之累积快照

本文总结了使用ETL处理大数据技术进行数据仓库建设的过程，包括数据提取、转换和加载（ETL）过程的构建和部署。主要介绍了ETL处理大数据的几种方法和技术，重点讲解了Apache NiFi和Talend这两个流行的开源ETL工具在大数据环境中的使用。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（四）

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（六）

Greenplum 实时数据仓库实践（6）——实时数据装载

上一篇详细讲解了如何用Canal和Kafka，将MySQL数据实时全量同步到Greenplum。对照本专题第一篇中图1-1的数据仓库架构，我们已经实现了ETL的实时抽取过程，将数据同步到RDS中。本篇继续介绍如何实现后面的数据装载过程。实现实时数据装载的总体步骤可归纳为：

基于Hadoop生态圈的数据仓库实践 —— ETL（三）

三、使用Oozie定期自动执行ETL 1. Oozie简介（1）Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统，其工作流作业是由一系列动作构成的有向无环图（DAGs），协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp，及其Java程序和shell脚本等特定的系统作业。第一版Oozie是一个基于工作流引擎的服务器，通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器，按时间和数据触发工作流执行。它可以基于时间（如每小时执行一次）或数据可用性（如等待输入数据完成后再执行）连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象，批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业，这样可以更好地简化操作控制。（2）为什么需要Oozie

MySQL - 分库分表

主从模式对于写少读多的场景确实非常大的优势，但是总会写操作达到瓶颈的时候，导致性能提不上去。

基于hadoop生态圈的数据仓库实践 —— 进阶技术（十五）

大数据的未来在云端

数据正在呈几何级数增长，来自社交媒体（微信、微博）以及传感器设备的非结构化数据受到了越来越多的关注，而与传统企业交易系统的结构化数据一起，它们将有可能带来新一轮的产业变革。机器学习，自然语言处理，舆情分析等词汇几乎每天都会出现在媒体的报道当中，然而真正讲它们大规模投入应用的企业却少之又少。如今，企业CIO们几乎人人都在讨论大数据，许多人认为大数据就是搭一个Hadoop集群，把所有的数据全部存进去，再通过各种各样的API调用进行分析。然而答案并不是这么简单，大数据与IT方方面面

Kettle构建Hadoop ETL实践（五）：数据抽取

本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取，即ETL过程中的Extract部分。首先简述Kettle中几种抽取数据的组件，然后讲述变化数据捕获（Change Data Capture，CDC），以及Kettle如何支持不同的CDC技术。Hadoop生态圈中的Sqoop工具可以直接在关系数据库和HDFS或Hive之间互导数据，而Kettle支持Sqoop输入、输出作业项。最后我们使用Kettle里的Sqoop作业项以及基于时间戳的CDC转换实现销售订单示例的数据抽取过程，将MySQL中的源数据抽取到Hive的rds数据库中。

Halodoc使用Apache Hudi构建Lakehouse的关键经验

Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中，我们提到了我们如何在 Halodoc 实施 Lakehouse 架构来服务于大规模的分析工作负载。我们提到了平台 2.0 构建过程中的设计注意事项、最佳实践和学习。本博客中我们将详细介绍 Apache Hudi 以及它如何帮助我们构建事务数据湖。我们还将重点介绍在构建Lakehouse时面临的一些挑战，以及我们如何使用 Apache Hudi 克服这些挑战。

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

我在2017年写了一本名为《Hadoop构建数据仓库实践》的书。在这本书中，较为详细地讲解了如何利用Hadoop（Cloudera's Distribution Including Apache Hadoop，CDH）生态圈组件构建传统数据仓库。例如，使用Sqoop从关系数据库全量或增量抽取数据到Hadoop系统，使用Hive进行数据转换和装载处理等等。作为进阶，书中还说明了数据仓库技术中的渐变维、代理键、角色扮演维度、层次维度、退化维度、无事实事实表、迟到事实、累计度量等常见问题在Hadoop上的处理。它们都是通过Hive SQL来实现的，其中有些SQL语句逻辑复杂，可读性也不是很好。

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（三）

HAWQ取代传统数仓实践（十五）——事实表技术之无事实的事实表

本文介绍了数据仓库及其在技术社区中的应用，并重点讲解了数据仓库中的事实表和维度表的设计。在数据仓库中，通过将事实表与维度表关联，可以灵活地根据维度表中的属性进行查询。同时，通过在事实表和维度表之间建立关联，可以实现灵活的维度与度量之间的转换。最后，本文讲解了如何设计数据仓库以满足技术社区的需求，并提供了相应的示例。

得物自建 DTS 平台的技术演进 | 精选

随着得物 App 的用户流量增长，业务选择的数据库越来越多样化，异构数据源之间的数据同步需求也逐渐增多。为了控制成本并更好地支持业务发展，我们决定自建 DTS 平台。本文主要从技术选型、能力支持与演化的角度出发，分享了在 DTS 平台升级过程中获得的经验，并提供一些参考。

「集成架构」2020年最好的15个ETL工具(第一部)

ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。

Kettle构建Hadoop ETL实践（八-1）：维度表技术

前面文章中，我们用Kettle工具实现了Hadoop多维数据仓库的基本功能，如使用Sqoop作业项、SQL脚本、Hadoop file output、ORC output等步骤实现ETL过程，使用Oozie、Start作业项定期执行ETL任务等。本篇将继续讨论常见的维度表技术，以最简单的“增加列”开始，继而讨论维度子集、角色扮演维度、层次维度、退化维度、杂项维度、维度合并、分段维度等基本的维度表技术。这些技术都是在实际应用中经常使用的。在说明这些技术的相关概念和使用场景后，我们以销售订单数据仓库为例，给出Kettle实现和测试过程。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐