PGXZ 的架构揭秘

原创

腾讯云TStack

修改于 2017-09-25 10:51:05

4.3K0

文章被收录于专栏：腾讯云TStack专栏腾讯云TStack专栏

作者：李跃森

2016年7月，腾讯云对外发布云数据库PostgreSQL，提供腾讯自研的内核优化版和社区版两个版本，以及提供分布式集群架构（分布式集群内部代号PostgreSQL-XZ）两种方案。

本文将重点介绍PGXZ，PGXZ是腾讯的数据库团队基于开源数据库开发的分布式关系数据库集群，作为TStack平台重要的数据库产品能力，用户可在云端轻松设置、操作，且无需负责基础运维工作，以及为灾难恢复而进行的数据备份。

1、分布式集群PostgreSQL-XZ：

腾讯PostgreSQL-XZ是由PostgreSQL-XC社区版本地化而来，能支撑水平扩展数据库集群。虽然PostgreSQL-XC很强大，但在性能、扩展性、安全、运维方面还是有明显的瓶颈，而腾讯PostgreSQL经过多年的积累，在这些方面都有较大提升和强化。一般用于金融行业等核心数据库，腾讯PostgreSQL被定位为安全、高效，稳定，可靠的数据库集群。那么PostgreSQL-XZ做了哪些优化和改进呢？

事务管理系统的优化：

PostgreSQL-XC在事务管理系统方案本身有一个明显的缺点，那就是事务管理机制会上成为系统的瓶颈，GTM（Global Transaction Manager全局事务管理器）会限制系统的扩展规模。如图3所示，是每个请求过来CN(Coordinator 协调节点)都会向GTM申请必需的gxid（全局事务ID）和gsnapshot（全局快照）信息，并把这些信息随着SQL语句本身一起发往DN（Datanode数据库节点）进行执行。另外，PostgreSQL-XC的管理机制，只有主DN才会获取的gxid，而备DN没有自己的gxid，因此无法提供只读服务，对系统也是不小的浪费。

▲图1

而腾讯PostgreSQL-XZ改进了事务管理机制，改进后，CN不再从GTM获取gxid和gsnapshot，每个节点使用自己的本地xid（事务ID）和gsnapshot（快照），如此GTM便不会成为系统的瓶颈；并且，DN备机就还可以提供只读服务，充分利用系统闲置资源。如图2，优化后的事务管理系统架构如下：

▲图2

备机只读实现与优化：

当然，事务管理系统的优化为进行备DN只读提供了基础，然而原始集群并没有负载、调度等能力。在这方面，我们也做了大量的创新，总结起来包括：

正常CN和只读CN进行分离；
正常CN存储主用DN的元数据信息；
只读CN存储备用DN的元数据信息；
DN之间使用hot standby（热备份保护）模式进行日志同步。

通过这些方式，集群可以提供带有智能负载能力的备DN只读功能，充分利用系统资源。

▲图3

业务最小中断的扩容方案：

业务的快速增长不可避免的需要对资源进行扩容，社区版本的实现使得扩容成本高昂，需要对业务进行长时间的中断。因为，在社区版本PostgreSQL-XC中，通过“ DN=Hash(row) % nofdn”的方式决定一条记录的存储节点：

也就是说，先对分布列计算hash值，然后使用这个值对集群中的节点个数取模来决定记录去哪个节点（如图4）。

这种方案简单，但实际应用中需要长时间停机扩容。这是因为，扩容后节点数会变多，数据无法按照原有的分布逻辑进行读写，需要重新分布节点数据。而再均衡数据需要停机并手工迁移再均衡到各个节点。对于规模较大的交易系统来说，由于原有节点存储的是海量数据，再均衡过程可能会持续好几天。相信这是业务完全无法忍受的。

▲图4

因此我们引入了一种新的分表方法—sharded table。Shardedtable的数据分布采用如下（图5）的方式：

引入一个抽象的中间层--shard map。Shard map中每一项存储shardid和DN的映射关系；
Sharded table中的每条记录通过Hash(row) % #shardmap entry来决定记录存储到哪个shardid，通过查询shardmap的存储的DN；
每个DN上存储分配到本节点shardid信息，进而进行可见性的判断。

通过上面的方案，在扩容新加节点时，就只需要把一些shardmap中的shardid映射到新加的节点，并把对应的数据搬迁过去就可以了。扩容也仅仅需要切换shardmap中映射关系的，时间从几天缩短到几秒

▲图5

数据倾斜解决方案：

数据倾斜是指，在分布式数据库系统中会因为物理节点、hash或shard分布原因，导致某些DN物理空间不足，而另外的物理空间剩余较大。例如，如果以商户作为分布key，京东每天的数据量和一个普通电商的数据量肯定是天地差别。可能某个大商户一个月的数据就会把一个DN的物理空间塞满，这时系统只有停机扩容一条路。因此我们必须要有一个有效的手段来解决数据倾斜，保证在表数据分布不均匀时系统仍然能够高效稳定的运行。

首先我们把系统的DN分为group（如下图8），每个group里面：

包含一个或者多个DN；
每个group有一个shardmap；
在建sharded表时，可以指定存储的group，也就是要么存储在group1，要么group2；
CN可以访问所有的group，而且CN上也存储所有表的访问方式信息。

▲图6

对于系统中数据量较大用户进行特别的识别，并为他们创建白名单，使用不同的数据分布逻辑（如下图9）：普通用户使用默认的数据分布逻辑，也就是：

Shardid = Hash(merchantid) % #shardmap 大商户使用定制的数据分布逻辑，也就是：

Shardid = Hash(merchantid) % #shardmap + fcreate_timedayoffset from 1970-01-01

▲图7

通过在大商户group分布逻辑中加入日期偏移，来实现同一个用户的数据在group内部多个节点间均匀分布。从而有效的解决数据分布不均匀问题。

下面是一个例子（如下图8）：

多数据记录高效排序解决方案：

业务在列表查询场景下会收到如下的查询SQL：

假设这样一个场景，PostgreSQL需要面向一个月高达9000W数据级数据进行快速排序，而且业务逻辑要求需要秒级输出，快速获取排序结果。

为此，我们提供表定义方案，即建立集群分区表。根据上述需求，可以采用按月分表，即每个月一张表，并对排序字段ffinish_time建立索引，这样每个分区进行扫描是可以使用索引。

我们再通过一系列执行计划的优化，CN下推order by和limit offset子句到DN；DN上在执行对应的sql使用使用Merge Append算子对各个子表执行的结果进行汇总输出，这个算子本身会保证输出是有序的，也就是说对子表进行索引扫描，同时Merge Append又对各个子表的结果进行归并，进而保证节点本身的结果是排序的。CN对多个DN的结果同样使用Merge Append进行归并，保证整个输出结果是有序的，从而完成整个排序过程。

下面是我们对排序进行的性能测试结果：