数据仓库基础知识
数据仓库的概念
1.数据仓库是信息数据库的具体实现,用来存储源自业务数据库的共享数据。典型的数据仓库应该是一个主题数据库,支持用户从巨大的运营数据存储中发现信息,支持对业务趋势进行跟踪和相应,实现业务的预测和计划。
2.数据仓库是所有数据集市的集合。
数据仓库的特点
1.面向主题//数据以所代表的业务内容划分,而不是以应用划分
2.集成的//数据仓库中的数据采用统一的格式和编码方式
3.不同时间的//数据按照时间进行组织并且存储在不同的时间切片
4.稳定的//不允许对数据仓库数据进行更新操作,只允许加载和查询操作。
数据仓库系统
1.概念:数据仓库系统是一个信息提供平台,它从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
2.从功能结构划分:分为至少三个部分;数据获取、数据存储、数据访问。
业务系统(数据库...)->ETL抽取、转换、加载(数据获取)->数据仓库(数据存储)->数据访问
3.数据仓库系统的显著特征
频繁的变化//随着需求变化,随着业务系统变化
面向企业中不同业务和用户//支持不同的业务、不同部门、不同用户的需求
少量大事务处理 vs 大量小事务处理//事务的数量比业务系统少,但事务涉及的数据量大
4.独立的系统//采用完全独立的主机、数据库和应用服务器
5.数据仓库系统是一个不断循环的过程:新的需求->需求/设计->构造/实施->使用/维护->新的需求
6.完整的数据仓库系统从功能角度划分应该包括五个部分:
***数据整合//面向主题的
***数据存储//独立的数据存储
***数据访问
***信息整合
***元数据管理
元数据管理是数据仓库系统的重要组成部分,利用它可以对数据仓库系统本身以及所有相关的业务流程、业务规则、业务系统进行完整的描述,还可以对这些相关联的描述进行查询和检索。元数据管理是数据仓库系统适应频繁变化的重要保证。
7.以客户为中心的业务模式
8.数据仓库系统的作用:以客户为中心的业务模式需要强大的数据仓库系统提供信息支持,在业务处理
流程中,作用体现在决策支持、客户分段和评价以及市场自动化等。
数据的生命周期(包括了四个数据生命周期"分区")
1.第一个分区是交互区。数据存入数据仓库后迅速进入交互区。随着数据的调整,数据被整合后传递到整合区。访问模式是随机访问。数据量较小。数据仓库以更新模式在交易相应时间水平下完成构建。
2. 二个分区是整合区。进入这个区的数据可以回进去近线区和归档区。访问模式是顺序、成串的。数据量较大数据在这里经过整合并完成分析处理。
3. 三个分区是近线区。近线区是整合去的延伸。它是可选择的,也就是说数据不一定需要经过这一区。但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。访问模式是随机访问。相当大的数据量。作为数据整合区数据的一个缓存区域。
4. 四个分区是归档区。它的数据访问概率很低,数据可以从近线区或者是整合区进入这个区。访问模式可以是顺序的、不定期的、随机访问的。数据量显著增长。存放访问概率显著下降但仍有可以被访问的数据。
领取专属 10元无门槛券
私享最新 技术干货