前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据仓库

数据仓库

作者头像
ellipse
发布2019-09-12 09:40:40
1.8K0
发布2019-09-12 09:40:40
举报
文章被收录于专栏:ellipse数据库技术

*了解数据仓库相关技术

*了解数据仓库设计过程建造,运行及维护

*了解OLAP及多维数据模型

决策支持系统及其演化

一般将数据分为:分析型数据与操作型数据

操作型数据:由企业的基本业务系统产生的数据,用于联机处理环境(OLTP)

决策支持系统(DSS):综合利用大量数据有机组合众多模型(数据模型及数据处理模型)通过人机交互。辅助各级决策者实现科学决策的系统。

建立数据仓库的目的:根据决策需求对企业的数据采取适当的手段进行集成。形成一个综合的。面向分析的数据环境,用于支持企业的信息型,决策型的分析应用。

数据仓库的特性:面向主题性,集成性,不可更新和时间性。

集成:数据仓库最重要的特性,分为数据抽取转换,清理(过滤)和装载

不可更新:数据仓库中的数据以批量方式处理,不进行一般主义上的数据更新。

随时间变化:不断捕捉数据。

数据仓库的体系结构与环境

从数据层次角度的体系结构来看,典型的数据仓库的数据体系结构包括:操作型数据、操作型

数据存储、数据仓库、数据集市和个体层数据

从功能结构看,可分为数据处理、数据管理和数据应用三个层次

数据仓库的数据组织< 粒度、数据分割(分区)、元数据>

数据仓库的数据单位中保存数据的细化程度或综合程度的级别。细化程度越高,粒度越小

粒度影响到数据仓库的数据量及系统能回答的查询的类型

进行数据仓库的数据组织时,应根据当前应用的需求进行多粒度级设计。满足多角度,多层次数据查询要求。

数据分散到各自的物理单元中去,他们能独立地处理

最常见的是按照时间标准分区。

数据分区的方式可以分成系统层分区(数据库系统提供的机制)和应用层分区(由应用代码实现)两种

如何分区由开发者和程序员控制

元数据:对数据描述的数据

ODS分为4类:

ODSⅠ:数据更新频率秒级。

ODSⅡ:数据更新频率小时级。

ODSⅢ:数据更新频率天级。

ODSⅣ:根据数据来源方向和类型区分。

SDLC是典型的需求驱动开发生命周期,CLDS是典型的数据驱动开发生命周期

传统的系统开发生命周期支持操作型环境,为建立系统,必须首先理解需求,然后进入到设计开发阶段。

CLDS由数据开始,一旦数据到手,就集成数据,然后,如果数据有偏差,就检验看看数据存

在什么偏差,在针对数据写程序,分析程序执行结果,最后,系统需求才得到理解。

数据仓库维护的基本思路:

根据某种维护策略,在一定条件下触发维护操作;维护操作捕捉到数据源中的数据变化;

通过一定策略对数据仓库中的数据进行相应的更新操作,以保持两者的一致性。

捕捉数据源的变化

当数据源发生变化时,告知数据仓库源数据发生变化的机制,就是源数据变化的监听及

捕获问题。典型的方法有:

触发器

修改数据源应用程序

通过日志文件

快照比较法

OLAP——主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的《决策支持》

OLAP工具一般具有快速、可分析和多维的特点

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ellipse数据库技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云数据仓库 TCHouse
腾讯云数据仓库 TCHouse 是腾讯云基于开源引擎打造的一系列企业级托管型云数仓产品,兼备稳定性、安全性的同时提供高效的自主运维工具和自主开发环境等配套设施。满足用户不同业务数据仓库场景的方案选型,提升用户分析查询效率、赋能用户数据价值。产品服务覆盖移动互联、广告、银行、保险、游戏、教育、地图等客户场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档