前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >大数据实训之数据建模

大数据实训之数据建模

作者头像
用户9184480
发布2024-12-07 16:27:50
发布2024-12-07 16:27:50
5700
代码可运行
举报
文章被收录于专栏:云计算linux云计算linux
运行总次数:0
代码可运行

OLTP和OLAP

On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。 具有较强的数据一致性事务操作

联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;I是信息性(Information),指能及时获得信息,并且管理大容量信息. 主要是一个数据分析系统, 要求有较快的时间响应

对于我们常用的关系型数据库, 对于数据一致性要求比较高, 基本都是我们的OLTP系统

对于我们常见的数据分析系统, 主要是根据已有的业务数据进行统计分析, 比如管理驾驶舱 数据统计分析, 比如做BI报表, 做机器学习等, 这些我们会专门在一个数据分析系统OLAP系统进行统计分析

问题: 为什么不在业务系统做数据分析呢

1 数据分析会影响业务系统的效率, 降低业务系统的处理性能 2 分析系统的数据有可能来自多个业务系统和业务日志文件, 比如来自财务系统, 客户管理系统, 订单管理系统, 商城系统等 3 分析系统的设计模型和业务系统的设计模型是不一致的, 针对于分析系统, 我们会使用维度建模, 对于业务系统, 我们会使用ER建模

什么是数据库建模

在设计数据库时,对现实世界进行分析、抽象、并从中找出内在联系,进而确定数据库的结构,这一过程就称为数据库建模

常见的数据库建模有关系建模维度建模

关系建模

​ 关系建模将复杂的数据抽象为两个概念——实体和关系,并使用规范化的方式表示出来。关系模型如图所示,从图中可以看出,较为松散、零碎,物理表数量多。

​ 关系模型严格遵循第三范式(3NF),数据冗余程度低,数据的一致性容易得到保证。由于数据分布于众多的表中,查询会相对复杂,在大数据的场景下,查询效率相对较低。

​ 关系建模是通过准确的业务规则来描述业务运作的过程

业务规则: 1 一个客户拥有多个银行账户 2 一个银行账户只属于一个客户 3 一个银行账户会有多个银行业务交易 4 一个银行业务交易记录只属于一个银行账户

image-20220909112334157.png
image-20220909112334157.png

维度建模

​ 维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务用事实表和维度表呈现出来。表结构简单,故查询简单,查询效率较高。

维度建模是面向查询主题分析

代码语言:javascript
代码运行次数:0
运行
复制
`维度建模是根据不同的维度进行统计分析的维度模型`

统计需求分析: 1 围绕账户交易记录表进行统计 2 根据时间(月份, 季度, 年份)进行时间维度的统计 3 根据地区(城市,省份,国家)进行对应的地区维度进行统计 4 根据账户, 客户的信息进行对应的

image-20220912223226052.png
image-20220912223226052.png

维度建模

在OLAP的数据仓库的设计中, 为了方便我们的查询效率, 通常采用的是维度建模, 在维度建模的设计中, 我们使用的最多的

事实表

​ 事实表是指存储有事实记录的表,如系统日志、销售记录等;事实表的记录在不断地动态增长,所以它的体积通常远大于其他表。

​ 事实表作为数据仓库建模的核心,需要根据业务过程来设计,包含了引用的维度和业务过程有关的度量。

维度表

​ 维度表或维表,有时也称查找表,是与事实表相对应的一种表;它保存了维度的属性值,可以跟事实表做关联;相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。常见的维度表有:日期表(存储与日期对应的周、月、季度等的属性)、地点表(包含国家、省/州、城市等属性)等。维度是维度建模的基础和灵魂

数据仓库分层

数仓分层结构

image-20220912224630793.png
image-20220912224630793.png

ODS层: 存放业务系统采集过来的原始数据, 直接加载的业务数据, 不做处理 DWD层: 对于ODS层的数据做基本的处理, 并且进行业务事实的分析和定位(不合法的数据处理, 空值的处理), 一行数据代表的是一个业务行为 DWS层, 对于DWD层的业务数据进行按天或者按照一定的周期进行统计分析, 是一个轻度聚合的结果 DIM层, 维度统计层, 对于需要统计分析(group by)的相关的条件进行统一的设计和规范, 比如时间, 地区, 用户等 ADS(数据应用层): 需要的业务统计分析结果, 一般会把ADS层的数据抽取到业务数据库MySQL中

为什么需要对数据仓库分层

  1. 把复杂问题简单化 不同的层次负责不同的功能定位
  2. 减少重复开发 对于DIM, DWS可以根据主题进行自上而下的设计, 抽取通用的功能
  3. 隔离原始数据 ODS层原始数据, 可以对统计结果进行回溯, 方便问题的定位
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • OLTP和OLAP
  • 什么是数据库建模
    • 关系建模
    • 维度建模
  • 维度建模
    • 事实表
    • 维度表
  • 数据仓库分层
    • 数仓分层结构
    • 为什么需要对数据仓库分层
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档