前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数仓一般性总结

数仓一般性总结

作者头像
章鱼carl
发布于 2022-05-16 06:49:44
发布于 2022-05-16 06:49:44
5180
举报
文章被收录于专栏:章鱼carl的专栏章鱼carl的专栏

本文的思维导图对数仓的基本知识进行总结。

1. 传统关系型数据库的建模理论

(1) 数据冗余

数据冗余利好查询分析效率,利空数据一致性

数据越冗余越难保证数据一致性,分布式存储就是这样,但是维度退化到事实表后相当于预聚合了,所以查询分析效率高。

RDB偏向减少数据冗余,提升数据一致性。DW偏向适当冗余数据,提升查询分析效率

(2) 三范式

字段不可分、无部分依赖、无传递依赖,目的在于尽可能降低数据冗余,有利于数据一致性。

(3) ER实体关系模型

是一种逻辑模型设计,基于三范式。将事物抽象为 实体、属性、关系。

2. 数与维度建模

(1) 为什么传统关系型数据库不能适应数仓这一分析场景

RDB很难将数据转换成企业真正需要的决策信息:数据孤岛、缺历史数据、非主题角度。

(2) 数仓概念中蕴含的特性

面向主题、集成的、相对稳定、反应历史变化

(3) 数仓的发展历程

比尔•恩门(Bill Inmon)主张自上而下建设DW,DW符合第三范式。

拉尔夫•金博尔(Ralph Kimball)主张自下而上建设DW,认为数据仓库是企业内所有数据集市的集合,提出维度建模。

(4) 范式化建模和维度建模的比较

ER建模:面向应用,三范式,以消除数据冗余为目标的设计技术

维度建模:面向分析,反范式,为了提高查询性能可以增加数据冗余

(5) 在数仓中各种主要的表及概念

事实表 fact、维度表 dim

(6) 数仓建模三种类型

星型、雪花型、星座型

3. 数仓分层

(1) 数仓分层的优点

清晰的数据结构、减少重复开发、统一数据出口、简化问题

(2) 数仓一般分层架构及各层职责

ODS、DW、DM

DW:DWD、DWM、DWS

4. 数据库与数仓的区别

数据范围、数据变化、应用场景、处理数据量、设计理论、建模方式

上图

图片也可以从https://github.com/yanchenyun/wechat-docs下载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 章鱼沉思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数仓设计和规范—数仓背景知识
数据仓库(Data Warehouse, DW)是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。业界主要从两个方面来进行命名:
平常心
2020/11/07
2.5K0
数仓设计和规范—数仓背景知识
漫谈数仓五重奏
从传统数仓到互联网数仓,有很多相似点也有很多不同点,互联网数仓的发展比较有代表性的就是阿里爸爸了,以下是《阿里大数据之路》中的数据体系架构图。
王知无-import_bigdata
2019/08/06
1.5K0
通俗易懂数仓建模—Inmon范式建模与Kimball维度建模
本文开始先简单理解两种建模的核心思想,然后根据一个具体的例子,分别使用这两种建模方式进行建模,大家便会一目了然!
五分钟学大数据
2021/04/15
2.2K0
通俗易懂数仓建模—Inmon范式建模与Kimball维度建模
数据仓库建模方法详解视频_三维建模流程步骤
范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由Inmon所提倡,主要解决关系型数据库得数据存储,利用的一种技术层面上的方法,主要用于业务系统,所以范式建模主要是利用关系型数据库进行数仓建设
全栈程序员站长
2022/11/09
8160
数据仓库建模方法详解视频_三维建模流程步骤
数仓基础(二):数据仓库建模概述
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
Lansonli
2024/10/07
4290
数仓基础(二):数据仓库建模概述
数据仓库(03)数仓建模之星型模型与维度建模
维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。
张飞的猪
2022/09/03
8260
深入讲解四种数仓建模理论方法
数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建,这个决定了数仓的复用和性能,本文将介绍四种建模的理论:维度建模、关系建模、Data Vault建模、Anchor模型建模,文后也介绍几种常见的数仓建模工具。
Spark学习技巧
2024/01/26
3.2K0
深入讲解四种数仓建模理论方法
浅谈数仓建模及其方法论
1.简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需要的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。
大数据真好玩
2021/03/15
1.9K0
数据仓库(05)数仓Kimball与Inmon架构的对比
数据仓库主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构。不过不管是那种架构,基本上都会使用到维度建模。
张飞的猪
2022/09/21
1.2K0
数仓分层理论_多元分层理论
​ 在实际工作中,数仓分层、元数据管理、数据质量管理一直是一个持续优化的过程,我们公司业务也是在持续的做数仓的优化工作,在数据治理这方面还是欠缺很多的经验的。下面先简单整理了一下第一个理论部分的相关笔记。
全栈程序员站长
2022/11/17
8170
数仓分层理论_多元分层理论
数据仓库基础小知识集锦
权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
大数据真好玩
2021/07/07
6340
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 上
我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到属性以及它们之间的相互关系。
五分钟学大数据
2021/12/09
12.5K0
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 上
再谈:数据建模之设计与开发
数据模型的定义:数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。读起来有些拗口,可以简单理解为描述实体及关系的一个方法。
用户5548425
2020/08/04
5840
再谈:数据建模之设计与开发
数仓入门就靠它了!!!
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。
857技术社区
2022/05/17
3950
数仓入门就靠它了!!!
【万字长文】数仓最全知识点整理(建议收藏)
数据仓库 Data Warehouse,是为企业所决策制定过程,提供所有支持类型的数据集合。用于分析性报告和决策支持。数仓是一个面向主题、集成的、相对稳定、反映历史变化的数据集合,随着大数据技术的发展,其作用不再局限于决策分析、还可以为业务应用、审计、追踪溯源等多方面提供数据支撑,帮助企业完成数字化转型。
857技术社区
2022/05/17
16.1K0
【万字长文】数仓最全知识点整理(建议收藏)
数据仓库常见建模方法与建模实例演示[通俗易懂]
为什么要进行数据仓库建模?大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑
全栈程序员站长
2022/11/09
3.7K0
数据仓库常见建模方法与建模实例演示[通俗易懂]
数据仓库常见建模方法与大数据领域建模实例综述
随着从IT时代到DT时代的跨越,数据开始出现爆发式的增长,这当中产生的价值也是不言而喻。如何将这些数据进行有序、有结构地分类组织存储,是我们所有数据从业者都要面临的一个挑战。
全栈程序员站长
2022/08/22
2K0
数据仓库常见建模方法与大数据领域建模实例综述
候选人被我这些数仓面试题问懵逼了
4). 数仓架构分层:一般分为操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD和汇总数据层(DWS)
数据社
2021/07/30
1.6K0
10分钟了解啥是数仓
随着互联网及物联网等技术发展,越来越多的数据被生成,如何有效利用这些数据就成为了企业决胜的法宝了。大型公司会基于数据做出BI、推荐系统、决策支持、统计分析、报表等业务。
码农小胖哥
2021/06/24
9290
10分钟了解啥是数仓
❤️ 爆肝三万字《数据仓库体系》轻松拿下字节offer ❤️【建议收藏】
🍅 作者主页:不吃西红柿 🍅 简介:CSDN博客专家🏆、信息技术智库公号作者✌  华为云享专家、HDZ核心组成员。 简历模板、PPT模板、学习资料、面试题库、技术互助。 目录 🍅 信息技术智库 🍅 ---- 文章很长,前言一定要看 拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点,文章内容主要来源于以下几个方面: 源于「数据仓库交流群」资深数据仓库工程师的交流讨论,如《sql行转列的千种写法》。 源于群友面试大厂遇到的面试真题,整理投稿给我,形成《面试题库》。 源于笔
不吃西红柿
2022/07/29
1.2K0
❤️ 爆肝三万字《数据仓库体系》轻松拿下字节offer ❤️【建议收藏】
推荐阅读
相关推荐
数仓设计和规范—数仓背景知识
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档