开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从查找维度inSSIS中使用SCD2加载事实表

在云计算领域中，SSIS（SQL Server Integration Services）是一种强大的ETL（Extract, Transform, Load）工具，用于数据集成和数据转换。在SSIS中，SCD2（Slowly Changing Dimension Type 2）是一种常用的维度加载技术，用于在事实表中处理维度数据的变化。

SCD2加载事实表是指在数据仓库中，将维度数据的变化加载到事实表中的过程。维度数据可能会随着时间的推移而发生变化，例如产品的价格、客户的地址等。SCD2加载技术可以有效地处理这些变化，保留历史数据并跟踪维度的演变。

SCD2加载事实表的主要步骤包括：

确定维度的业务键（Business Key）和属性（Attributes）：业务键是用于唯一标识维度记录的字段，属性是描述维度记录的其他字段。
比较源数据和目标数据：通过比较源数据和目标数据，确定维度记录的变化类型，例如新增、更新或保持不变。
插入新记录：对于新增的维度记录，将其插入到事实表中，并分配一个新的维度主键（Surrogate Key）。
更新现有记录：对于发生变化的维度记录，将其在事实表中的当前记录标记为过时，并插入一条新的记录，以保留历史数据。
保持不变的记录：对于保持不变的维度记录，不进行任何操作。

SCD2加载事实表的优势包括：

历史数据保留：通过使用SCD2加载技术，可以保留维度数据的历史变化，方便进行时间序列分析和趋势分析。
数据一致性：SCD2加载技术可以确保维度数据在事实表中的一致性，避免因维度数据变化而导致的数据不一致问题。
灵活性：SCD2加载技术可以适应不同类型的维度变化，包括新增、更新和保持不变，提供了灵活的数据处理能力。

在腾讯云的产品中，可以使用云数据库SQL Server来支持SSIS和SCD2加载事实表的需求。云数据库SQL Server是腾讯云提供的一种托管式关系型数据库服务，支持高可用、高性能的SQL Server数据库。您可以通过以下链接了解更多关于云数据库SQL Server的信息：

请注意，本回答仅针对腾讯云的产品进行介绍，其他云计算品牌商的类似产品可能存在，但在本回答中不予提及。

相关搜索:在SSIS中从SCD1和SCD2维度加载事实表事实数据表中的重复行来自维度中的SCD2更改如何在维度表中查找未使用的行从SSRS Dax查询中的另一个事实表中提取维度使用ARRAYFORMULA从查找表中查找源表中所有匹配的行/值使用React从表中删除项目后重新加载表使用主键从SQL表中查找重复名称使用Python SDK将csv从GCP加载到KVStore查找中使用Pandas从网站中按字符串查找特定表如何使用sql脚本从数据库中查找特定表使用ssis将excel数据从sharepoint库加载到表中。使用am自动生成的主键将数据从临时表加载到表中使用select从具有相似列的两个表中查找信息使用计算列值从同一源表中查找特定值使用sql stmt从日期表中查找最近的未来或等于日期使用COPY TO <TABLE>将引用的数字从CSV加载到雪花表中如何从HTML文件中查找表中的特定值并使用linux命令打印它们 BigQuery:如何使用传输接口将文件从GCS加载到现有的表中？从两个数据表中查找公共列,并使用LINQ中的Join条件如何在jupyter中使用pandas从txt文件中加载某个句子中的表

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

维度模型数据仓库（四） —— 初始装载

（三）初始装载在数据仓库可以使用前，需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。首次装载被称为初始装载，一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。例如，数据仓库使用的开始时间是2015年3月1日，而用户希望装载两年的历史数据，那么应该初始装载2013年3月1日到2015年2月28日之间的源数据。在2015年3月2日装载2015年3月1日的数据，之后周期性地每天装载前一天的数据。在装载事实表前，必须先装载所有的维度表。因为事实表需要维度的代理键。这不仅针对初始装载，也针对定期装载。本篇说明执行初始装载的步骤，包括标识源数据、维度历史的处理、使用SQL和Kettle两种方法开发和测试初始装载过程。设计开发初始装载步骤前需要识别数据仓库的每个事实表和每个维度表用到的并且是可用的源数据，并了解数据源的特性，例如文件类型、记录结构和可访问性等。表（三）- 1里显示的是本示例中销售订单数据仓库需要的源数据的关键信息，包括源数据表、对应的数据仓库目标表等属性。这类表格通常称作数据源对应图，因为它反应了每个从源数据到目标数据的对应关系。生成这个表格的过程叫做数据源映射。在本示例中，客户和产品的源数据直接与其数据仓库里的目标表，customer_dim和product_dim表相对应。另一方面，销售订单事务表是多个数据仓库表的源。

03

一文读懂如何处理缓慢变化的维度(SCD)

长期以来，Kimball方法一直是维度数据建模技术的标准。根据Kimball的说法，“时间概念渗透到数据仓库的每个角落”。这在数据分析的背景下意味着什么？在较高的层面上，现代分析可以被视为随着时间的推移不断变化的数据的聚合。问题在于，不断变化的数据不仅包括新的添加，还包括对先前数据集的更改。

02

HAWQ取代传统数仓实践（三）——初始ETL（Sqoop、HAWQ）

本文通过介绍如何利用Sqoop对不同数据源进行数据导入，详细描述了Sqoop的导入流程、数据源配置、抽取和加载方式，并通过实例介绍了具体操作。

07

基于Hadoop生态圈的数据仓库实践 —— ETL（二）

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51837457

02

Greenplum 实时数据仓库实践（6）——实时数据装载

上一篇详细讲解了如何用Canal和Kafka，将MySQL数据实时全量同步到Greenplum。对照本专题第一篇中图1-1的数据仓库架构，我们已经实现了ETL的实时抽取过程，将数据同步到RDS中。本篇继续介绍如何实现后面的数据装载过程。实现实时数据装载的总体步骤可归纳为：

02

在Hive上实现SCD

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51508931

02

SCD的三层

5.5.2 SCD1（缓慢渐变类型1）通过更新维度记录直接覆盖已存在的值。不维护记录的历史。一般用于修改错误的数据，即历史数据就是错误数据，除此没有他用。

02

Kettle构建Hadoop ETL实践（六）：数据转换与装载

本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前，先简要介绍数据清洗的概念，并说明如何使用Kettle完成常见的数据清洗工作。由于本示例中Kettle在Hadoop上的ETL实现依赖于Hive，所以之后对Hive做一个概括的介绍，包括它的体系结构、工作流程和优化。最后用完整的的Kettle作业演示如何实现销售订单数据仓库的数据转换与装载。

04

知行教育大数据分析数仓项目_面试题精华版

1.简介一下当前这个项目能够介绍一下你写的项目: 我们这个大数据项目主要是解决了教育行业的一些痛点。首先，受互联网+概念，疫情影响，在线教育，K12教育等发展火热，越来越多的平台机构涌现。但是由于信息的共享利用不充分，导致企业多年积累了大量数据，而因为信息孤岛的问题，一直没有对这些数据进一步挖掘分析，因此也不能给企业的管理决策层提供有效的数据支撑。有鉴于此，我们做的这个教育大数据分析平台项目，将大数据技术应用于教育行业，用擅长分析的OLAP系统为企业经营提供数据支撑。具体的实现思路是，先建立企业的数据仓库，把分散的业务数据预处理，其次根据业务需求从海量的用户行为数据挖掘分析，定制出多维的数据集合，形成数据集市，供各个场景主题使用，最后用BI工具，进行前端展示。用到的技术架构包括：mysql，sqoop，基于CM的Hive，Oozie和FineBi。由于OLTP系统中数据大多存储在mysql，所以我们最终选择Sqoop作为导入导出工具，抽取数据到数仓，并使用基于CM管理的Hive进行数据清洗＋分析，然后sqoop导出到mysql，最后用FineBI展示OLAP的数据分析结果。所以，我们的技术解决了企业的三大痛点。一是数据量太大问题，传统数据库无法满足；二是系统多，数据分散问题，无法解决数据孤岛问题；三是，统计工作量太大，分析难度高问题，无法及时为企业提供数据参考。

02

OushuDB入门（五）——ETL篇

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643

02

维度模型数据仓库（十七） —— 无事实的事实表

（五）进阶技术 12. 无事实的事实表本篇讨论一种技术，用来处理源数据中没有度量的需求。例如，产品源数据不包含产品数量信息，如果系统需要得到产品的数量，很显然不能简单地从数据仓库中直接得到。这时就要用到无事实的事实表技术。使用此技术可以通过持续跟踪产品的发布来计算产品的数量。可以创建一个只有产品（计什么数）和日期（什么时候计数）维度代理键的事实表。之所以叫做无事实的事实表是因为表本身并没有度量。产品发布的无事实事实表本节说明如何实现一个产品发布的无事实事实表，包括新增和初始装载product_count_fact表。图（五）- 12-1显示了跟踪产品发布数量的数据仓库模式（只显示与product_count_fact表有关的表）。

01

维度模型数据仓库（五） —— 定期装载

（四）定期装载初始装载只在开始数据仓库使用前执行一次，然而，必须要按时调度定期执行装载源数据的过程。本篇说明执行定期装载的步骤，包括识别源数据与装载类型、使用SQL和Kettle两种方法开发和测试定期装载过程。从源抽取数据导入数据仓库有两种方式，可以从源把数据抓取出来（拉），也可以请求源把数据发送（推）到数据仓库。影响选择数据抽取方式的一个重要因素是源数据的可用性和数据量，这基于是抽取整个源数据还是仅仅抽取自最后一次抽取以来的变化。考虑以下两个问题：

03

【22】进大厂必须掌握的面试题-30个Informatica面试

在大数据时代，任何公司的成功都取决于数据驱动的决策和业务流程。在这种情况下，数据集成对于任何业务的成功秘诀都是至关重要的，并且掌握诸如Informatica Powercenter 9.X之类的端到端敏捷数据集成平台必将使您走上职业发展的快速通道。使用Informatica PowerCenter Designer进行ETL和数据挖掘的职业是前所未有的最佳时机。

04

维度模型数据仓库（六） —— 增加列

（五）进阶技术 1. 增加列数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本篇先讨论如果需要增加列，模式会发生怎样的变化。然后进一步说明如何在客户维度和销售订单事实表上添加列，并在新列上应用SCD2。假设需要在客户维度中增加送货地址属性，并在销售订单事实表中增加数量度量值。

03

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（十三）

十三、无事实的事实表本节讨论一种技术，用来处理源数据中没有度量的需求。例如，产品源数据不包含产品数量信息，如果系统需要得到产品的数量，很显然不能简单地从数据仓库中直接得到。这时就要用到无事实的事实表技术。使用此技术可以通过持续跟踪产品的发布来计算产品的数量。可以创建一个只有产品（计什么数）和日期（什么时候计数）维度代理键的事实表。之所以叫做无事实的事实表是因为表本身并没有度量。 1. 产品发布的无事实事实表本小节说明如何实现一个产品发布的无事实事实表，包括新增和初始装载product_count_fact表。下图显示了跟踪产品发布数量的数据仓库模式（只显示与product_count_fact表有关的表）。

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（四）

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51943736

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（一）

一、增加列数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本节说明如何在客户维度表和销售订单事实表上添加列，并在新列上应用SCD2，以及对定时装载脚本所做的修改。假设需要在客户维度中增加送货地址属性，并在销售订单事实表中增加数量度量值。先看一下增加列时模式发生的变化。修改后源数据库模式如下图所示。

03

HAWQ取代传统数仓实践（十五）——事实表技术之无事实的事实表

本文介绍了数据仓库及其在技术社区中的应用，并重点讲解了数据仓库中的事实表和维度表的设计。在数据仓库中，通过将事实表与维度表关联，可以灵活地根据维度表中的属性进行查询。同时，通过在事实表和维度表之间建立关联，可以实现灵活的维度与度量之间的转换。最后，本文讲解了如何设计数据仓库以满足技术社区的需求，并提供了相应的示例。

07

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

三、维度子集有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度的数据少，因此更易使用，查询也更快。本节中将准备两个特定维度，它们均取自现有的维度：月份维度（日期维度的子集），Pennsylvania州客户维度（客户维度的子集）。 1. 建立月份维度表执行下面的脚本建立月份维度表。注意月份维度不包含promo_ind列，该列不适用月层次上，因为一个月中可能有多个促销期，而且并不是一个月中的每一天都是促销期。促销标记适用于天这个层次。

01

最新数仓面试题_知行教育数仓项目

包含： •项目做了什么我们的教育大数据分析平台项目就是将大数据技术应用于教育行业,为企业经营提供数据支撑

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（三）

三、维度子集有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度的数据少，因此更易使用，查询也更快。本节中将准备两个特定维度，它们均取自现有的维度：月份维度（日期维度的子集），Pennsylvania州客户维度（客户维度的子集）。 1. 建立月份维度表执行下面的脚本建立月份维度表。注意月份维度不包含promo_ind列，该列不适用月层次上，因为一个月中可能有多个促销期，而且并不是一个月中的每一天都是促销期。促销标记适用于天这个层次。

02

维度模型数据仓库（九） —— 角色扮演维度

（五）进阶技术 4. 角色扮演维度当一个事实表多次引用一个维度表时会用到角色扮演维度。例如，一个销售订单有一个是订单日期，还有一个交货日期，这时就需要引用日期维度表两次。本篇将说明两类角色扮演维度的实现，分别是表别名和数据库视图。这两种都使用了MySQL的功能。表别名是在SQL语句里引用维度表多次，每次引用都赋予维度表一个别名。而数据库视图，则是按照事实表需要引用维度表的次数，建立相同数量的视图。修改数据库模式使用清单（五）-4-1里的SQL脚本修改数据库模式。分别给数据仓库里的事实表sales_order_fact和源数据库中订单销售表sales_order增加request_delivery_date_sk和request_delivery_date列。图（五）- 4-1 显示了修改后的模式。

02

Kettle构建Hadoop ETL实践（八-1）：维度表技术

前面文章中，我们用Kettle工具实现了Hadoop多维数据仓库的基本功能，如使用Sqoop作业项、SQL脚本、Hadoop file output、ORC output等步骤实现ETL过程，使用Oozie、Start作业项定期执行ETL任务等。本篇将继续讨论常见的维度表技术，以最简单的“增加列”开始，继而讨论维度子集、角色扮演维度、层次维度、退化维度、杂项维度、维度合并、分段维度等基本的维度表技术。这些技术都是在实际应用中经常使用的。在说明这些技术的相关概念和使用场景后，我们以销售订单数据仓库为例，给出Kettle实现和测试过程。

03

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（十四）

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52154160

01

维度模型数据仓库（十三） —— 退化维度

（五）进阶技术 8. 退化维度本篇讨论一种称为退化维度的技术。该技术减少维度的数量，简化维度数据仓库的模式。简单的模式比复杂的更容易理解，也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中，然后删除退化的维度。退化订单维度本节说明如何退化订单维度，包括对数据仓库模式和定期装载脚本的修改。使用维度退化技术时你首先要做的识别数据，分析从来不用的数据列。例如，订单维度的order_number列就可能是这样的一列。但如果用户想看事务的细节，还需要订单号。因此，在退化订单维度前，要把订单号迁移到sales_order_fact表。图（五）- 8-1显示了迁移后的模式。

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（九）

九、退化维度本节讨论一种称为退化维度的技术。该技术减少维度的数量，简化维度数据仓库模式。简单的模式比复杂的更容易理解，也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度，此时需要把退化维度的相关数据迁移到事实表中，然后删除退化的维度。 1. 退化订单维度本小节说明如何退化订单维度，包括对数据仓库模式和定期装载脚本的修改。使用维度退化技术时你首先要识别数据，分析从来不用的数据列。例如，订单维度的order_number列就可能是这样的一列。但如果用户想看事务的细节，还需要订单号。因此，在退化订单维度前，要把订单号迁移到sales_order_fact表。下图显示了迁移后的模式。

02

维度模型数据仓库（十四） —— 杂项维度

（五）进阶技术 9. 杂项维度本篇讨论杂项维度。简单地说，杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单，它可能有很多离散数据（yes-no这种类型的值），如

02

基于hadoop生态圈的数据仓库实践 —— 进阶技术（十五）

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52165035

01

维度模型数据仓库（八） —— 维度子集

（五）进阶技术 3. 维度子集有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度小，因此更易使用，查询也更快。本篇中将准备两个特定维度，它们均取自现有的维度：月份维度（日期维度的子集），Pennsylvania州客户维度（客户维度的子集）。清单（五）-3-1里的脚本用于建立月份维度，并从日期维度初始装载月份维度。注意月份维度不包含promo_ind列，该列不适用月层次上，因为一个月中可能有多个促销期。促销标记适用于日层次。

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（十）

十、杂项维度本节讨论杂项维度。简单地说，杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单，它可能有很多离散数据（yes-no这种类型的值），如

03

拉链表

4.3.1.8.1.1 拉链表回顾拉链表就是之前我们讲过的SCD2，它的优点是即满足了反应数据的历史状态，又能在最大程度上节省存储。拉链表的实现需要在原始字段基础上增加两个新字段： start_time(表示该条记录的生命周期开始时间——周期快照时的状态) end_time(该条记录的生命周期结束时间)

02

维度模型数据仓库（十八） —— 迟到的事实

（五）进阶技术 13. 迟到的事实装载日期在生效日期后的事实就是迟到的事实。晚于订单日期进入源数据的销售订单可以看做是一个迟到事实的例子。销售订单被装载进其事实表时，装载的日期晚于销售订单的订单日期，因此是一个迟到的事实。（因为定期装载的是前一天的数据，所以这里的晚于指的是晚2天及其以上。）迟到事实影响周期快照事实表的装载，如（五）进阶技术5. “快照”中讨论的month_end_sales_order_fact表。比方说，2015年3月的销售订单金额月底快照已经计算并存储在month_end_sales_order_fact表中，这时一个迟到的订单在3月10日被装载，那么2015年3月的快照金额必须因迟到事实而重新计算。处理迟到事实本节说明当导入month_end_sales_order_fact表时如何处理迟到的销售订单。为了知道一个销售订单是否是迟到的，需要把销售订单数据源的登记日期装载进sales_order_fact表。由于现在还没有登记日期列，你需要在事实表上添加此列。使用维度角色扮演技术添加登记日期。因此，在销售订单事实表里添加名为entry_date_sk的日期代理键列，并且从日期维度表创建一个叫做entry_date_dim的数据库视图。清单（五）-13-1里的脚本创建entry_date_dim视图和销售订单事实表里的entry_date_sk代理键列。

03

数仓缓慢变化维深度讲解

维度缓慢变化为SCD（Slowly Changing Dimensions）一些维度表的数据不是静态的，而是会随着时间而缓慢地变化（这里的缓慢是相对事实表而言，事实表数据变化的速度比维度表快，如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解）把处理维度表数据历史变化的问题，称为缓慢变化维问题，简称SCD问题。

02

维度模型数据仓库（十） —— 快照

（五）进阶技术 5. 快照前面实验说明了处理维度的扩展。本篇讨论两种事实表的扩展技术。有些用户，尤其是管理者，经常会要看某个特定时间点的数据。也就是说，他们需要数据的快照。周期快照和累积快照是两种处理事实表扩展的技术。周期快照是在一个给定的时间对事实表进行一段时期的总计。例如，一个月销售订单周期快照是每个月底时总的销售订单金额。累积快照用于跟踪事实表的变化。例如，数据仓库可能需要累积（存储）销售订单从下订单的时间开始，到订单中的商品被出库、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点，销售订单处理状态的累积快照。下面说明周期快照和累积快照的细节问题。周期快照本节以销售订单的月底汇总为例说明如何实现一个周期快照。首先需要添加一个新的事实表。图（五）- 5-1中的模式显示了一个名为month_end_sales_order_fact的新事实表。该表中有两个度量值，month_order_amount和month_order_quantity，这两个值是不能加到sales_order_fact表中的。不能加到sales_order_fact表中的原因是，sales_order_fact表和新的度量值有不同的时间属性（数据的粒度不同）。sales_order_fact表包含的是每天一条记录。新的度量值要的是每月的数据。使用清单（五）- 5-1里的脚本建立month_end_sales_order_fact表

01

缓慢变化维度

0x00 前言本文会分享数据仓库中和缓慢变化维度相关的内容。在看之前建议回顾一下和维度建模相关的知识点，可参考数据仓库系列文章。为什么会分享这个听起来很奇怪的东西？因为站在的笔者的视角中，只要是做数据仓库的小伙伴们，在工作中基本上都会接触和维度建模相关的内容，而谈到维度建模，就少不了会和维度表打交道。我们要谈的就是维度表相关的知识点。在正式开始之前，先解释一下什么是缓慢变化维度。笔者个人理解，缓慢变化维度其实就是指在维度表中那些会随着时间变化的字段，比如用户基本资料。注：缓慢是一个相对的概念。与缓慢

03

数据仓库的核心概念

01

HAWQ取代传统数仓实践（六）——增加列

本文介绍了在技术社区中，如何从技术角度、业务角度、架构角度、运维角度等多个维度出发，进行社区技术内容的分类、规划、建设、管理、优化，并阐述了在此过程中的技术选型和社区机制建设。同时，本文还分享了基于机器学习和数据挖掘的技术内容管理方法，以及面向知识图谱、智能问答、科技情报等场景的技术实践。

08

维度模型数据仓库（十九） —— 维度合并

（五）进阶技术 14. 维度合并随着数据仓库中维度的增加，会发现有些通用的数据存在于多个维度中。例如，客户维度的客户邮编相关信息、送货邮编相关信息和工厂维度里都有邮编、城市和州。本篇说明如何把三个维度里的邮编相关信息合并到一个新的邮编维度。修改数据仓库模式为了合并维度，需要改变数据仓库模式。图（五）- 14-1显示了修改后的模式。新增了一个zip_code_dim表，sales_order_fact和production_fact表的结构也做了相应的修改。注意图中只显示了与邮编维度相关的表。

01

Kettle构建Hadoop ETL实践（八-2）：维度表技术

数据仓库中的关联实体经常表现为一种“父—子”关系。在这种类型的关系中，一个父亲可能有多个孩子，而一个孩子只能属于一个父亲。例如，通常一名企业员工只能被分配到一个部门，而一个部门会有很多员工。“父—子”之间形成一种递归型树结构，是一种比较理想和灵活的存储层次关系的数据结构。本小节说明一些递归处理的问题，包括数据装载、树的展开、递归查询、树的平面化等技术实现。销售订单数据仓库中没有递归结构，为了保持示例的完整性，将会使用另一个与业务无关的通用示例。

03

通俗易懂讲数据仓库之【缓慢变化维】

本篇博客，博主为大家带来的是关于数据仓库中一个非常重要的知识点缓慢变化维的讲解!

05

HAWQ取代传统数仓实践（十六）——事实表技术之迟到的事实

一、迟到的事实简介数据仓库通常建立于一种理想的假设情况下，这就是数据仓库的度量（事实记录）与度量的环境（维度记录）同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时，就能够

08

BigQuery：云中的数据仓库

原文地址：https://dzone.com/articles/bigquery-data-warehouse-clouds

04

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

五、快照前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。有些用户，尤其是管理者，经常要看某个特定时间点的数据。也就是说，他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。周期快照是在一个给定的时间对事实表进行一段时期的总计。例如，一个月销售订单周期快照汇总每个月底时总的销售订单金额。累积快照用于跟踪事实表的变化。例如，数据仓库可能需要累积（存储）销售订单从下订单的时间开始，到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点，销售订单处理状态的累积快照。下面说明周期快照和累积快照的细节问题。 1. 周期快照下面以销售订单的月底汇总为例说明如何实现一个周期快照。首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（五）

五、快照前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。有些用户，尤其是管理者，经常要看某个特定时间点的数据。也就是说，他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。周期快照是在一个给定的时间对事实表进行一段时期的总计。例如，一个月销售订单周期快照汇总每个月底时总的销售订单金额。累积快照用于跟踪事实表的变化。例如，数据仓库可能需要累积（存储）销售订单从下订单的时间开始，到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点，销售订单处理状态的累积快照。下面说明周期快照和累积快照的细节问题。 1. 周期快照下面以销售订单的月底汇总为例说明如何实现一个周期快照。首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

02

系列 | 漫谈数仓第二篇NO.2 数据模型（维度建模）

model对于数仓是最核心的东西，数据模型是数据组织和存储方法，模型的好坏，决定了数仓能支撑企业业务多久。

02

系列 | 漫谈数仓第二篇NO.2 数据模型（维度建模）

model对于数仓是最核心的东西，数据模型是数据组织和存储方法，模型的好坏，决定了数仓能支撑企业业务多久。

04

数据工程师的崛起

大数据文摘作品，转载要求见文末作者 | Maxime Beauchemin 编译团队 | Yawei Xia,邱猛，赖小娟，张礼俊 2011的时候年我以商业智能工程师的身份加入脸书（Facebook），但在13年离开时我的职位却是数据工程师。这期间我并没有升职也没有被调到一个新职位上，我只是意识到我们的工作已经超越了传统商业智能的范畴，并且我们为自己创造的这个角色属于一个全新的领域。由于我的团队处在这种转变的最前沿，我们正在培养新的技能、新的做事风格、开发新工具，并基本放弃了旧有的方法。我们是这个领

03

维度模型数据仓库（十五） —— 多重星型模式

（五）进阶技术 10. 多重星型模式从（五）进阶技术1. “增加列”开始，已经通过增加列和表扩展了数据仓库，在（五）进阶技术5. “快照”里增加了第二个事实表，month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表（第一个是在开始建立数据仓库时创建的sales_order_fact表）。有了这两个事实表的数据仓库就是一个正式的双星型模式。本篇将在现有的维度数据仓库上增加一个新的星型结构。与现有的与销售关联的星型结构不同，新的星型结构关注的是产品业务领域。新的星型结构有一个事实表和一个维度表，用于存储数据仓库中的产品数据。一个新的星型模式图（五）- 10-1 显示了扩展后的数据仓库模式。模式中有三个星型结构。sales_order_fact表是第一个星型结构的事实表，与其相关的维度表是customer_dim、product_dim、date_dim和sales_order_attribute_dim表。month_end_sales_order_fact表是第二个星型结构的事实表。product_dim和month_dim是其对应的维度表。第一个和第二个星型结构共享product_dim维度表。第二个星型结构的事实表和月份维度数据分别来自于第一个星型结构的事实表和date_dim维度表。它们不从源数据获得数据。第三个星型模式的事实表是新建的production_fact表。它的维度除了存储在已有的date_dim和product_dim表，还有一个新的factory_dim表。第三个星型结构的数据来自源数据。

02

一般数据库增量数据处理和数据仓库增量数据处理的几种策略

通常在数据量较少的情况下，我们从一个数据源将全部数据加载到目标数据库的时候可以采取的策略可以是：先将目标数据库的数据全部清空掉，然后全部重新从数据源加载进来。这是一个最简单并且最直观的并且不容易出错的一种解决方案，但是在很多时候会带来性能上的问题。

03

数据仓库专题（8）-维度属性选择之维护历史是否应该保留

数据仓库建模过程中，针对事务型事实表设计，经常会遇到维度属性选择的问题，比如客户维度，在操作型系统中，为了跟踪客户状态的变化，往往会附加客户记录的四个属性：

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭