Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Greenplum数据库使用总结(干货满满)--

Greenplum数据库使用总结(干货满满)--

作者头像
小徐
发布于 2019-08-02 09:15:51
发布于 2019-08-02 09:15:51
8.4K0
举报
文章被收录于专栏:GreenplumGreenplum

1 Greenplum整体架构信息

1.1 架构图示

在以上的架构中可以看出Greenplum主要是由Master和Segment组成的,Master承担生成查询计划并派发汇总执行结果,Segment是执行查询计划及数据储存管理。集群可以直接加载外部的数据。

官网请查看:https://greenplum.org/

Greenplum官方文档:https://gp-docs-cn.github.io/docs/common/gpdb-features.html

1.2 Master主机与Segment主机任务

Master主机负责

Segment主机负责

1. 建立与客户端的会话连接和管理

1. 业务数据的存储和存取

2.sql的解析并形成分布式的执行计划

2.执行由master分发的sql语句

3.将生成好的执行计划分发到每个Segment上执行

3.对于master来说,每个Segment都是对等的,负责对应数据的存储和计算

4.收集Segment的执行结果

4.每一台机器上可以配置一到多个Segment

5.master不存储业务数据,只存储数据字典

5.由于每个Segment都是对等的,建议采用相同的机器配置

6.master主机可以一主一备,分布在两台机器上

6.Segment分primary 和mirror两种,一般交错第存放在子节点上

7.为了提高性能,master最好单独占用一台机器

1.3 数据库分布键分布数据策略

由于greenplum数据库是个分布式数据库,数据分布在每一个segment节点上,其中数据的分布策略有两种分别是hash分布于随机分布。

1.3.1 HASH策略

Hash分布是利用Distributed by (filed1,filed2....) 做为数据分布的条件,计算hash值,并通过hash值路由到制定的segment上,如果不指定分布键,默认的是获取第一个字段作为分布键。在字段作为分布键时,该字段的值尽量是唯一的,这样才能分布的均匀,效率会更高,否则会降低数据库的想能。

1.3.2 随机分布

随机分布也叫平均分布。数据会随机的落在每一个segment节点上,不管数据内容是什么格式都会落到segment上,在SQL查询数据,数据会重新分布,性能会比较差,随机分布的用法为Distributed randomly;

1.4 master主节点获取segment节点上的数据顺序

Master在执行sql语句时由于数据切分放在每个segment上,master获取结果的顺序是segment提交的顺序,segment提交到master的顺序是随机的,就会导致一样的数据每次的查询结果顺序不一致,这也是与其他的数据不一样的地方。

2 Greenplum数据库常用知识

2.1 Greenplum 概念

Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。

中国已有:中信实业银行,东方航空公司,阿里巴巴,华泰保险,中国远洋(Cosco),李宁公司等大型企业用户选择Greenplum的产品。

2.2 OLTP与OLAP的理解

2.2.1 描述概念

Greenplum 支持OLTPOLAP机制,同时也支持AO表与堆方式储存,其中OLTP与OLAP的特点如下:

OLTP(On-Line Transaction Processing,联机事务处理)系统也称为生产系统,它是事件驱动的、面向应用的,比如电子商务网站的交易系统就是一个典型的OLTP系统。OLTP的基本特点是:

数据在系统中产生,

基于交易的处理系统(Transaction-Based),

每次交易牵涉的数据量很小,

对响应时间要求非常高,

用户数量非常庞大,主要是操作人员,

数据库的各种操作主要基于索引进行。

OLAP(On-Line Analytical Processing,联机分析处理)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门的、面向主题的,其基本特点是:

本身不产生数据,其基础数据来源于生产系统中的操作数据(OperationalData)

基于查询的分析系统,

复杂查询经常使用多表联结、全表扫描等,牵涉的数据量往往十分庞大,

响时间与具体查询有很大关系,

用户数量相对较小,其用户主要是业务人员与管理人员,

由于业务问题不固定,数据库的各种操作不能完全基于索引进行。

2.2.2 图示解释

OLTP与OLAP的比较

OLTP与OLAP对于硬件的要求

2.3 其他名词概念

2.3.1 HTAP概念

HTAP(Hybrid Transactional / Analytical Processing)

一份数据,支持在线事务与在线分析

分布式share nothing架构,线性扩展

3-15倍压缩

https://yq.aliyun.com/articles/193401?utm_content=m_29900

2.3.2 Append-only 的概念

AO表为追加存储,当删除、更新记录时,有一个BITMAP对象来存储对应的记录是否被删除。对于AO存储,虽然是appendonly,但实际上GP是支持DELETE和UPDATE的,被删除或更新的行,通过BITMAP来标记,性需要用vacuum来释放。

2.4 数据仓库设计规则

2.4.1 数据仓库概念

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

2.4.2 数据仓库设计规则相关资料

具体的可以参考数据仓库之父Bill Inmon在1991年出版的"Building the Data Warehouse",下载地址为:链接: https://pan.baidu.com/s/1I5ImKxDv0Jbx3psqTY2TzQ 提取码: gm8k

2.4.3 数据仓库设计规范参考

名词

名词简称

名词解释

Data Warehouse

DW

数据仓库主体

Operational Data Store

ODS

数据原始接入层,需要对数据频繁的增删改查,是支持对近期数据的OLTP查询,以减轻业务系统负载。

Data Warehouse Detail

DWD

数据源的细节层,有的也称为ODS层,是业务层与数据仓库的隔离层,在该层可以把业务表分的更细

Data Warehouse Base

DWB

数据仓库基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层

Data Warehouse Service

DWS

服务数据层,基于DWB上的基础数据,主要整合汇总最终的结果供应用层使用,一般是宽表和高度压缩表。

Data Warehouse History

DWH

该层不在数据仓库设计的范围之内,按照业务新增的数据层,主要储存历史数据。

Data Warehouse Exception

DWE

该层不在数据仓库设计的范围之内,按照业务新增的数据层,主要储存异常数据。

Enterprise Data Warehouse

EDW

作为企业唯一的数据仓库,EDW提供统一的数据服务,查询结果有效一致。数据设计支持跨部门,支持海量数据,并支持大量的查询请求。

Data Mart

DM

和EDW类似,但更专注于部门级别而不是公司级别的统一数据服务。提供EDW不能提供的,针对部门的特殊数据服务需求

BI/Analytic Database

BID/AD

为商业智能和分析而优化的数据处理技术。包括数据清理,ETL,数据挖掘等。生产报表,也支持adhoc查询,数据反范式设计。

Data Lake Database

DLD

该层存储非加工数据,比如日志、视频等,以后结构化数据,并且不分类,没有为了特定程序进行设计和加工。

详细资料请参考:https://blog.csdn.net/xfg0218/article/details/85092196

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 河马coding 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数仓数据处理DB基本概念解析与理解 OLAP OLTP HATP 异同 MPP架构
学习数仓的时候,可能一开始总是被一些英文缩写名字迷惑,OLAP MPP架构 KAPPA架构 ODS等等,这篇文章就来梳理一下这些基本概念。
大鹅
2021/08/05
3.7K0
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
Greenplum是一个分布式大规模并行处理数据库,在大多数情况下适合做大数据的存储引擎、计算引擎和分析引擎,尤其适合构建数据仓库。本篇重点介绍Greenplum的系统架构和主要功能。我们先从历史演进和所采用的MPP框架对Greenplum做一个概要说明,然后描述其顶层架构,之后详细介绍存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,正是它们支撑Greenplum成为一款理想的分析型数据库产品。本篇最后简单对比Greenplum与另一个流行的大数据处理框架Hadoop,进而阐述可以选择前者的理由。
用户1148526
2021/12/07
4.8K0
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
Greenplum 架构和核心引擎
Greenplum 架构和核心引擎 Greenplum 架构和核心引擎 1 学习地址 2 1 Greenplum 架构概述 2 1.1 概述简介 2 1.2 MPP无共享静态拓扑 3 1.3 集群内数据分两类 3 1.4 对用户透明 4 1.5 用户数据表 4 1.6 系统表/数据字典 5 1.7 数据分布:并行化处理的根基 5 1.8 多态储存:根据数据温度选择最佳的储存方式 6 1.8.1 行储存 6 1.8.2 列储存 6 1.8.3 外部表 6 2 Greenplum SQL的执行过程 7 2.1
小徐
2020/02/11
1.2K0
Greenplum 架构和核心引擎
Greenplum数据库使用总结--目录部分
目录 目录- 2 - 1 Greenplum整体架构信息- 9 - 1.1 架构图示- 9 - 1.2 Master主机与Segment主机任务- 9 - 1.3 数据库分布键分布数据策略- 10 - 1.3.1 HASH策略- 10 - 1.3.2 随机分布- 10 - 1.4 master主节点获取segment节点上的数据顺序- 10 - 2 Greenplum数据库常用知识- 10 - 2.1 Greenplum 概念- 10 - 2.2 OLTP与OLAP的理解- 11 - 2.2.1 描述概念-
小徐
2019/08/05
1.4K0
数据仓库设计规范
以下是常用的数据仓库术语,请按照需求创建schema名字,其中DWH与DWE不是数据仓库的术语
小徐
2018/12/20
1.9K0
数据仓库设计规范
海量数据处理利器greenplum——初识
简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。 第二,支持分布式事务,支持ACID。保证数据的强一
cloudskyme
2018/03/20
2.4K0
海量数据处理利器greenplum——初识
从架构特点到功能缺陷,重新认识分析型分布式数据库 (转载非原创)
转载来源: https://www.cnblogs.com/ivan-uno/p/9051225.html
xlj
2022/05/03
5980
大数据时代,传统数据仓库技术是否已经过时?
传统的数据仓库架构一般有由源系统、ODS、EDW、Data Mart几部分组成。源系统就是业务系统、管理系统、办公系统等等;ODS是操作数据存储;EDW是企业级数据仓库,Data Mart是数据集市。
物流IT圈
2019/07/16
2.8K0
大数据时代,传统数据仓库技术是否已经过时?
数据仓库设计规范
名词 名词简称 名词解释 Data Warehouse DW 数据仓库主体 Operational Data Store ODS 数据原始接入层,需要对数据频繁的增删改查,是支持对近期数据的OLTP查询,以减轻业务系统负载。 Data Warehouse Detail DWD 数据源的细节层,有的也称为ODS层,是业务层与数据仓库的隔离层,在该层可以把业务表分的更细 Data Warehouse Base DWB 数据仓库基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层 Data W
小徐
2019/08/02
5680
GreenPlum分布式数据库存储及查询处理
Greenplum是一个分布式数据库系统,因此其所有的业务数据都是物理存放在集群的所有Segment实例数据库上;在Greenplum数据库中所有表都是分布式的,所以每一张表都会被切片,每个Segment实例数据库都会存放相应的数据片段。在下图中sale、customer、vendor、product四张表的数据都会切片存放在所有的Segment上,所有Segment实例同时工作,由于每个Segment只需要计算一部分数据,所以计算效率会大大提升。
AiDBA宝典
2023/11/16
1.3K0
GreenPlum分布式数据库存储及查询处理
MPP大规模并行处理架构详解
这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。
五分钟学大数据
2021/04/02
6.5K0
Spark查询太慢?试试这款MPP数据库吧!
Greenplum数据库是典型的主从架构,一个Greenplum集群通常由一个Master节点、一个Standby Master节点以及多个Segment实例组成,节点之间通过高速网络互连,如下图所示。Standby Master节点为Master节点提供高可用支持,Mirror Segment实例为Segment实例提供高可用支持。当Master节点出现故障时,数据库管理系统可以快速切换到Standby Master节点继续提供服务。
杰哥的IT之旅
2022/01/25
1.6K0
Spark查询太慢?试试这款MPP数据库吧!
数据运营者的福音:海量数据处理利器Greenplum
前言:近年来,互联网的快速发展积累了海量大数据,而在这些大数据的处理上,不同技术栈所具备的性能也有所不同,如何快速有效地处理这些庞大的数据仓,成为很多运营者为之苦恼的问题!随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决,Greenplum也成为新一代海量数据处理典型代表。本文结合个推数据研发工程师李树桓在大数据领域的实践,对处理庞大的数据量时,如何选择有效的技术栈做了深入研究,探索出Greenplum是当前处理大数据仓较为高效稳定的利器。
个推君
2019/03/12
9590
数据运营者的福音:海量数据处理利器Greenplum
盘点 Greenplum 数据库的十大特点
Greenplum数据库于2015年由Pivotal公司开源,遵循Apache Licence 2.0协议,官方网站为:
IT阅读排行榜
2022/03/11
1.7K0
盘点 Greenplum 数据库的十大特点
Greenplum数据库快速调优
为进程分配内存的百分比,默认是50,vm.overcommit_memory = 2 的情况下生效
小徐
2021/01/27
2.8K0
Greenplum数据库快速调优
OLAP数据库计算层架构分析
目前主流的OLAP数据库计算层架构有Master-Slave和Master-Master两种形态,但大多数选择的是Master-Slave架构,Master-Slave有助于控制流和计算流的分离,更简单的部署方式(Master集成元数据)等优势,下面是关于各个数据库或数据仓库产品的调研结果。
awakeljw
2022/09/21
2K0
OLAP数据库计算层架构分析
产品图鉴:Greenplum
Greenplum是老牌的MPP数据仓库,查询稳定性很强,SQL支持非常全面(支持ANSI SQL 2008和SQL OLAP 2003扩展;支持ODBC和JDBC应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。),基于PostgreSQL构建而成,主要面向结构化数据OLAP计算,Greenplum在6.0版本大大的提高了对OLTP的支持,tpcb性能提升60倍,单节点查询达到80000TPS(Transactions Per Second,数据库每秒处理事务数),插入操作达到18000TPS,更新操作约7000TPS。
十里桃花舞丶
2023/10/16
3060
GreenPlum闭源?可以了解一下国产CBDB(Cloudberry Database)
Cloudberry Database(可简称为“CBDB”或“CloudberryDB”)是面向分析和 AI 场景打造的下一代统一型开源数据库,搭载了 PostgreSQL 14.4 内核,兼容 PostgreSQL 和 Greenplum Database 生态,采用 Apache License 2.0 许可协议,由北京酷克数据HashData科技有限公司开发,目前源码已公开。
AiDBA宝典
2024/06/07
1.1K0
GreenPlum闭源?可以了解一下国产CBDB(Cloudberry Database)
数仓实战|两步搞定Hive数据加载到Greenplum
如果说Hive是离线数仓的代表,那么Greenplum就是MPP数据库的代表。在离线数仓的年代,以Hive为核心的数据仓库席卷数据仓库市场,几乎成为了离线数仓的代名词。但是Hive的查询能力非常弱,通常需要其它计算引擎辅助才能完成OLAP查询。
数据社
2021/08/27
1.7K0
数仓实战|两步搞定Hive数据加载到Greenplum
数据库架构比较
20世纪90年代,使用MPP架构的Netezza和Teradata的数据库设备对Oracle,IBM和Microsoft在anlytics数据库市场的主导地位提出了挑战,并且随着“大数据”的出现以及带有分布式处理的Hadoop的严峻考验。
February
2018/12/10
4.2K0
相关推荐
数仓数据处理DB基本概念解析与理解 OLAP OLTP HATP 异同 MPP架构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档