2020年11月24日,国际知名行业研究机构Gatner公布2020年全球云数据库魔力象限评估结果,阿里云首次挺进全球云数据库第一阵营--领导者(LEADERS)象限。Gatner分析师评价道:阿里云产品上具备强大的创新能力,其数据库PolarDB已全面应用于零售,电信,物流,金融等多个行业。在云原生关系型数据库领域PolarDB的全球部署能力,分析师认为达到了国际领先水平。
首先声明,庙小妖风大,说的是我自己,和PolarDB无关,不过DISS了POLARDB后,PolarDB的老师们估计看我不爽,特地劳动节后,组团来到我这镇妖。
A云Polardb-x 1.0现已全面升级为Polardb-x 2.0,但Polardb-X 1.0有其自有特色,仍然有很多企业在使用Polardb-X 1.0方案。那么,当这些企业想将业务系统迁移至腾讯云时,该如何进行数据库选型?怎么样进行数据同步?其中又会涉及到哪些问题呢?
针对PolarDB for PostgreSQL 提出的特性,其中PG原生数据库最大的问题之一是磁盘空间占用的问题,相对于其他的数据库产品PostgreSQL 数据库会在使用中占用更多的磁盘空间,这是人尽皆知的问题,其他的两个问题也需要进行测试,通过测试来验证PolarDB for PostgreSQL产品是否和宣传的比PostgreSQL RDS产品更具竞争力。
需要修改 TestODBCSample.c 中 connect 函数中的 user参数的值,使用本文开头创建的数据库账号用户名。
根据阿里云数据库公众号的消息,4月17日,第十五届中国电子信息技术年会上正式颁发2020年中国电子学会科学技术奖,阿里云自研的“云原生分布式关系型数据库PolarDB”项目获得科技进步一等奖。这也是继飞天云操作系统之后,阿里云第二次自研技术获此殊荣。
PolarDB 是阿里云自主研发的新一代关系型云原生数据库,它基于分布式存储和计算技术,能够提供高性能、高可用和强一致性的数据存储和管理服务。相比于传统的关系型数据库,PolarDB 采用了多副本存储、多副本数据同步、数据分片等技术,能够支持海量数据存储和处理,并且具有更高的可扩展性和可用性。
最近压测了POLARDB FOR MYSQL ,得到了一些压力测试的结果,POLARDB 作为目前云原生数据库的 NO.1 (国内),的确是值得学习,一些数据库的设计理念,以及设计的路径,同时针对应用程序如果使用POLARDB ,如何进行设计,规避POLARDB 在设计上的一些“软肋”。 根据公司的需要,写了一个PPT,这里做一个简单的展示,希望有同行者,或者对POLARDB 使用的,或敢兴趣的同学,一起学习和讨论POLARDB。
新粉请关注我的公众号 根据OceanBase官方公众号的消息,OceanBase Cloud于2022年8月10日正式全球开服。 OceanBase Cloud是个什么东西呢,引用一下官方公众号的一张图片给大家看看: 根据这图,OceanBase Cloud首先是个数据库的SaaS服务,这可以类比一下比如Snowflake也是个SaaS服务,数据仓库的SaaS。 当然OceanBase不是数仓,它更多的是个带有HTAP功能的数据库,OLTP才是它的根本。它是一个数据库的SaaS服务。从这个角度来说,蚂蚁
最近和POLARDB 算是干上了,PolarDB 灭了我第一次, 我这个不服气呀,我这继续作妖的精神呀,大妖啥都不怕。想知道PolarDB 怎么上次灭我的可以看下面的文章,团灭我的过程。(这篇文章前面是描述问题,吃瓜看 阿里云的老师怎么又灭了我一次往文章中段下面 灭妖记 续集开始看)
3 概述 在本节中,我们首先概述PolarDB-IMCI的体系结构,接着总结驱动前面设计目标的设计理念,并简要描述用户界面。 3.1 PolarDB-IMCI的体系结构 图2显示了PolarDB-IMCI的体系结构,遵循将计算和存储架构分离的关键设计原则。存储层是一个具有高可用性和可靠性的用户空间分布式文件系统PolarFS [8]。计算层包含多个计算节点,包括用于读写请求的主节点(RW节点)、用于只读请求的多个节点(RO节点)以及多个无状态代理节点用于负载均衡。有了这些,PolarDB-IMCI可以提供高资源弹性性(§7)。此外,存储和计算层中的所有节点都通过高速RDMA网络连接以实现数据访问的低延迟。 为加快分析查询速度,PolarDB-IMCI支持在RO节点的行存储上建立内存列索引(§4)。列索引按插入顺序存储数据,并执行位于原位置之外的写操作以实现高效更新。插入顺序意味着列索引中的行可以通过其行ID(RID)而不是主键(PK)快速定位。为支持基于PK的点查找,PolarDB-IMCI实现了一个RID定位器(即两层LSM树)用于PK-RID映射。 PolarDB-IMCI使用一个异步复制框架(§5)进行RO和RW之间的同步。即,RO节点的更新不包含在RW的事务提交路径中,以避免对RW节点的影响。为增强RO节点上的数据新鲜度,PolarDB-IMCI在日志应用方面使用了两个优化,预提交式日志传送和无冲突并行日志重播算法。RO节点通过行存储的REDO日志进行同步,这比其他稻草人方法(例如使用Binlog)对OLTP造成的干扰要小很多。需要注意的是,将物理日志应用到列索引中并不是微不足道的,因为行存储和列索引的数据格式是异构的。 每个RO节点中都使用两个相互共生的执行引擎(§6):PolarDB的常规基于行的执行引擎来处理OLTP查询,以及一个新的基于列的批处理模式执行引擎用于高效运行分析查询。批处理模式执行引擎借鉴了列式数据库处理分析查询的技术,包括管道执行模型、并行运算符和矢量化表达式评估框架。常规基于行的执行引擎通过增强优化可进行列引擎不兼容或点查询。PolarDB-IMCI的优化器自动为两个执行引擎生成和协调计划,此过程对使用者透明。 3.2 设计理念 我们以下面突出PolarDB-IMCI的设计理念,这也适用于其他云本地HTAP数据库。 存储计算分离。同时作为云本地数据库的关键设计原则,存储计算分离架构在没有数据移动的情况下实现了适应性计算资源配置,这已经成为主流架构的替代方案。PolarDB-IMCI采取此决策以自然地达成我们的设计目标G#5(高资源弹性)。 单个RW节点和多个RO节点。实践中,单写架构已经通过[52] 确认拥有卓越的写性能并显着降低系统复杂性。我们观察到单个RW节点足以为95%的客户提供服务。此外,所有RO节点都具有与RW节点同步的一致数据视图。大型OLAP查询被路由到RO节点上以实现有效的资源隔离,RO节点可以快速扩展以处理激增的OLAP查询,这符合设计目标G#3(对OLTP的最小干扰)和G#5(资源弹性)。 RO节点内的混合执行和存储引擎。从OLAP社区的经验中得出,列式数据布局和矢量化的批处理执行对于OLAP查询来说是显著的优化。然而,对我们而言,直接使用现有的列式系统(例如ClickHouse)作为RO节点是不明智的决定。有两个原因支持这个论点。首先,在创建表方面,实现RW节点和RO节点之间的全兼容是耗时的。在云服务环境中,即使存在微小的不兼容性,也会在巨大的客户量下被显著放大并压垮开发人员。其次,纯基于列的RO节点对于被归类为OLTP工作量的点查找查询仍然效率低下。因此,我们开始设计一个扩展PolarDB原始执行引擎的新基于列的执行引擎,以满足目标G#1(透明度)。列式执行引擎的设计旨在满足G#2(先进的OLAP性能)。而基于行的执行引擎处理不兼容和点查询,前者无法处理。RO节点具有基于行和基于列的执行和存储引擎。 双格式RO节点通过物理REDO日志进行同步。在共享存储架构上,新RO节点可以快速启动以处理激增的只读查询,以满足设计目标G#5,并可以保持数据新鲜度(即G#4)通过不断应用RW节点的REDO日志。然而,将异构存储与原始物理日志(即REDO日志)同步是具有挑战性的,因为日志与底层数据结构(例如页面)密切相关。因此,稻草人方法是使RW节点记录用于列存储的附加逻辑日志(例如Binlog)。缺点是,当提交事务时触发额外的fsyncs,从而对OLTP造成非常大的性能干扰。因此,我们专门设计了一种新的同步方法,通过重用REDO并使RO节点上的逻辑操作由物理日志组成。之所以可行是因为PolarDB-IMCI在RO节点上维护基于行的缓冲池和列索引。逻辑操作可以通过在行缓冲池上的应用进程中获得。我们的评估显示,重用REDO日志的开销明显低于使用Binlog。
事情是这样的,在我们的MySQL 被 POLARDB 打败了后,我们遇到一个问题,就是强一致读的问题,在一个特殊的应用中,在大批量写后,需要立即进行数据的读,之前在MySQL都是打到主库,但基于想利用PolarDB的double 节点,总不能还强制将读都指定到写节点,所以我们采用了原有的方案,但是发现在大量的写后去马上读的中应用给出的延迟在20ms,也就是在大量UPDATE 几百万的数据后,从库的数据延迟应该在20ms内。虽然我们也解决了这个问题,但是实际上POLARDB 还有一个新的功能我们没有用到,POLARDB-SCC 。
第四部分将深入介绍列索引存储,这是PolarDB-IMCI处理分析查询的关键部分。PolarDB-IMCI支持高度调优的面向事务处理的云存储的基于行的存储引擎[14, 28]。然而,基于行的数据格式因其无法有效地访问分析查询而闻名。受领先的工业级数据库(例如Oracle [30]、SQL Server [32])的启发,PolarDB-IMCI通过内存中的列索引实现了双重数据格式,以增强OLAP功能。
,最近问 POLARDB 的同学同学是越来越多,准备开一个群,专门和大家一起学习 POLARDB for MYSQL 的数据库相关知识和PG ,MYSQL等数据库,分享相关的经验,和大家相互学习。
关系数据库技术,作为计算机技术的基石,兴起于上世纪的80年代。最初的两个系统是IBM Almaden研究院的System R和加州大学伯克利分校的Ingres。 在商业领域,经过一系列的厮杀,在淘汰掉包括Informix和SyBase这些强劲对手以后,Oracle,IBM和微软最终成为了商业数据库领域的三驾马车。 其中Oracle数据库更是一骑绝尘,在相当长一段时间内,Oracle数据库被广泛应用到了包括银行等在内的各种领域,在商业数据库领域是无敌的代名词。 进入21世纪以后,事情逐渐发生了变化。一方面,以
周日那天冯老师,云斗士又针对云资费贵的问题写了文章进行了DISS,我对这个事情是赞同的,只有不同的声音,才能让平民用上更便宜的资费,必须有人站出来说说这些事情。
PolarDB Serverless脱胎于 PolarDB 团队发表在SIGMOD 2021的论文,是选取其中成熟的技术最终产品化的结果。我们借助两大核心技术,高性能全局一致性SCC和热备无感秒切,无论在跨机扩展还是跨机切换,都达到了业界领先的能力。PolarDB MySQL Serverless于去年底正式上线,目前已经有1000+用户开始上手使用。本文期望从实践角度,演示如何测试PolarDB Serverless的弹性能力。
这题目让我想起非诚勿扰电影里面的台词,有意思吗?有意思呀!PostgreSQL 有意思,PolarDB for PostgreSQL 有意思。
说到这个问题的话,那么从PolarDB入手来说,作为开发者关注的数据库技术与创新基本就在里面了。 PolarDB MySQL版是阿里巴巴自研的云原生HTAP数据库。PolarDB MySQL版100%兼容原生MySQL的多个版本,包括MySQL 5.6、MySQL 5.7和MySQL 8.0。PolarDB MySQL版的企业版基于云原生架构、计算存储分离、软硬件一体化设计,为用户提供具备超高弹性和性能、高可用和高可靠保障、高性价比的数据库服务。可以说关于数据库技术和创新,云原生数据库PolarDB 体现的很全面了,下面看一下云原生数据库PolarDB的产品架构图
学习POLARDB 已经有3-4个月的时间了,当然大部分还是在理论方面,实际上POLARDB 在实际的操作中,有一部分是我还没有深入,另一部分是POLARDB 的 SERIVCE guy 的服务方式有些太主观,当然有客观的原因,但是作为一个数据库,想拥有FANS ,各种在内部进行展示的系统性能或一些小心思的开关,还是会吸引到 死忠粉的,建议不要冷冰冰的说,这些都是内部XX, 或者说你看 monitor web page 来打发一些想“进步” 的同学,终究我们也是看 MYSQL 的文档,并在里面找 有意思东西的一群人。另外一些服务的同学,你们这样做,真心是在浪费 技术同学的努力创造POLARDB 的好形象。
MySQL在达到一定数据量(我的经验是3T、单表1亿)时,复杂查询会有明显的延迟。继续分库分表,会严重增加业务复杂性,尤其对很多非互联网产品来说,急需一个分布式存储。
当部分package达到最大容量后,它会被转换为big package并压缩到磁盘上以减少空间消耗。压缩过程采用写时复制模式以避免访问冲突。也就是说,生成一个新package来保存压缩数据,而不对部分package进行任何更改。PolarDB-IMCI在压缩后更新元数据,将部分打包替换为新的package(即以原子方式更新指向新打包的指针),对于不同的数据类型,列索引采用不同的压缩算法。数值列采用参考帧、delta编码和位压缩的组合,而字符串列使用字典压缩。此外,由于打包是不可变的,当活动事务大于所有VID时,即没有活动事务引用插入VID映射时,该打包的插入VID映射是无用的。在这种情况下,PolarDB-IMCI会删除行组中的插入VID映射以减少内存占用。
作为一个数据库架构师,我没有办法,必须断尝试新的东西,并在新的东西里面寻找自己存在的价值,职责是在业务中寻找痛点,并在当前可以使用的技术中,或新的技术中寻找解决的方案,解决难题才是我目前要做的工作,否则就离失业不远了。
前几年,IT业界出现过轰轰烈烈的“去IOE”行动,也提出过自主可控之类的口号。但是甫一尝试大家发现,数据库作为企业核心产品,很难实现在短时间内完全的替代,随后这一行动也慢慢沉寂下去。时至今日,当年风口浪尖的三家公司其中的两家或已转型或是被人收购,但以O为代表的数据库依然是许多客户的核心业务。
异地多活是近几年比较热门的一种系统架构。一般来讲,要做到异地多活,是一个系统性的事情,需要接入层、应用层、数据层都做一些事情。
In the past few years, we have seen explosive growth in the cloud database market, with fierce competition between service providers aiming for the top. Notable contenders in this space include AWS Aurora, Alibaba Cloud PolarDB, and Huawei GaussDB.
这两年一直在做MySQL迁移到PolarDB for MySQL的问题,基本上是迁移一个项目反馈都是好的,优秀的,没有马失前蹄,终于在昨天掉进了陷马坑,MySQL 迁移到 POLARDB FOR MYSQL 后报表任务无法运行,业务强制回滚了。
在 IT 圈内,“删库跑路”已经成为程序员经常提及的一句玩笑话。虽然是玩笑话,但却反映了数据库内数据对企业的重要性。2020年的“微盟事件”就直接让香港主板上市公司微盟集团的市值一天之内蒸发超10亿元,数百万用户受到直接影响。
不做铺垫,因为公司在进行数据库转型,ORACLE to MYSQL 基于云上的MYSQL 在使用中主要分为两派 1 传统型的RDS ,也就是与我们自己安装的数据库有差别,但差别不大, 2 根据云上的硬件环境,最大最充分的修改数据库的内部结构,让数据库更能使用到我们的硬件环境,去适配他。
新的项目要使用PolarDB Serverless ,之前一直嚷嚷 Serverless 会改变很多事情,到了要开始用的时候,其实我是犹豫的,但项目本身的诉求如此,就必须开始搞serverless of databases .
用户在使用分布式数据库时,最想要的是既能将计算压力均摊到不同的计算节点(CN),又能将数据尽量散列在不同的存储节点(DN),让系统的存储压力均摊到不同的DN。对于将计算压力均摊到不同的CN节点,业界的方案一般比较统一,通过负载均衡调度,将业务的请求均匀地调度到不同的CN节点;对于如何将数据打散到DN节点,不同的数据库厂商有不同策略,主要是两种流派:按拆分键Hash分区和按拆分键Range分区,DN节点和分片之间的对应关系是由数据库存储调度器来处理的,一般只要数据能均匀打散到不同的分区,那么DN节点之间的数据基本就是均匀的。如下图所示,左边是表A按照列PK做Hash分区的方式创建4个分区,右边是表A按照列PK的值做Range分区的方式也创建4个分区:
微信,说去测测 PolarDB for PostgreSQL , 业界大佬发话,岂敢不从. 下面是大佬给留下的问题,从这些问题看,都是对PG存在的一些问题的改进.
POLARDB 是一个具有国际性质的数据库产品,虽是一个“国产数据库” ,可最专业的资料还要看 E 文。以下为翻译
MySQL 一直是互联网数据内核的主宰,但是在经历从互联网到企业级的转变中,却是困难重重。然而在 2019年,越来越多的企业级客户开始在业务核心中使用 MySQL 数据库,这是一个标志性的转变,代表 MySQL 打开了更广泛的企业市场,而MySQL的技术变革也正在以更快的步伐去满足更广泛的用户需求。
本文作者系Scott(中文名陈晓辉),现任大连华信资深分析师 ,ORACLE数据库专家,曾就职于甲骨文中国。个人主页:segmentfault.com/u/db_perf ,经其本人授权发布。
POLARDB 数据库中有一个核心是他重新设计的存储系统,polarfs,polarfs 是怎么设计的架构是怎样的,下面根据官方的一篇详细的英文文档作为翻译的目标 https://www.vldb.org/pvldb/vol11/p1849-cao.pdf
Tapdata Cloud 是国内首家异构数据实时同步云平台,目前支持 Oracle、MySQL、PG、SQL Server、MongoDB、ES 、达梦、Kafka、GP、MQ、ClickHouse、Hazelcast Cloud、ADB MySQL、ADB PostgreSQL、KunDB、TiDB、MariaDB、Aliyun MariaDB、Aliyun MongoDB、Aliyun RDS for SQLServer、Aliyun RDS for PG、Aliyun RDS for MySQL、TencentDB for MySQL、TencentDB for MariaDB、TencentDB for PG、TencentDB for SQLServer、TencentDB MongoDB、Vika、Apache Doris、PolarDB MySQL、轻流、PolarDB PostgreSQL、Amazon RDS for MySQL 之间的数据同步,并对用户永久免费。
最近几年,云数据库市场日趋繁荣,进入百花齐放、百家争鸣的时代,头部云计算厂商相继推出了自己的数据库产品,特别是亚马逊的Aurora、阿里云的PolarDB、华为云的GaussDB等等。
关于POLARDB 的数据存储部分的论文翻译还在继续,此为第四部分,与IO 的实现有关_________________________________________________________________
网上对这些数据库介绍有些误导,流传各种说法,比如:流传OB基于MySQL、GaussDB 200/300 和openGauss有啥区别,没办法谁让当前国产数据库太多...
最近在用 Database of Databases 去查询TiDB 、PolarDB、SequoiaDB、OceanBase的相关资料并做了一些简单的对比。比如像下面那个表格一样,可以对这四个数据库的基本信息进行对比。
因为系统数据量持续性增大,腾讯云的MySQL已经达到瓶颈,无法进行升级操作,如果自己搭建一个分库分表系统,速度和可靠性上面都会很差,综合各方面考虑,最后决定采用阿里云的PolarDB-X分布式数据库。
PolarDB-SCC 利用单边的RDMA 进行日志传输,减少网络开销节省CPU周期,如下图所示每个只读RO节点有一个日志的缓冲区,RW节点的日志缓冲区的日志数据将始终远程写入到RO节点日志的缓冲区中的相同的偏移量位置,RW节点为每个RO节点分配一个日志写入程序,负责通过RDMA 将日志写入到RO节点缓冲,RO节点会自动在RW节点中注册,然后相关的日志会写入到从节点中。
https://github.com/ApsaraDB/PolarDB-for-PostgreSQL/blob/main/doc/PolarDB-CN/LogIndex.md
需要加载数据库驱动可以看: Java 技术篇-IntelliJ IDEA 导入数据库驱动jar包实例演示
对于习惯MySQL 权限体系的朋友来说,MySQL 有 数据库,对象层面的权限,而PostgreSQL 多少有些不一样 PostgreSQL 的权限分为四类 : 实例,数据库,schame,对象。下面我们通过实际案例逐一了解。
近段时间,数据库市场非常活跃,各类新闻层出不穷。整体市场发展也呈现出较之前明显不同的的变化。本文尝试从近期国内数据库榜单变化情况,分析行业发展特点。以下为个人观点,仅供参考。相关数据从墨天轮网站中获得,详情可查阅https://www.modb.pro。
Tapdata Cloud 是国内首家异构数据实时同步云平台,目前支持 Oracle、MySQL、PG、SQL Server、MongoDB、ES 、达梦、Kafka、GP、MQ、ClickHouse、Hazelcast Cloud、ADB MySQL、ADB PostgreSQL、KunDB、TiDB、MariaDB、Aliyun MariaDB、Aliyun MongoDB、Aliyun RDS for SQLServer、Aliyun RDS for PG、Aliyun RDS for MySQL、TencentDB for MySQL、TencentDB for MariaDB、TencentDB for PG、TencentDB for SQLServer、TencentDB MongoDB、Vika、Apache Doris、PolarDB MySQL、轻流之间的数据同步,并对用户永久免费。
阿里云RDS FOR MySQL(MySQL5.7版本)数据库业务表每月新增数据量超过千万,随着数据量持续增加,我们业务出现大表慢查询,在业务高峰期主业务表的慢查询需要几十秒严重影响业务
李飞飞,现任阿里巴巴集团副总裁、高级研究员,阿里云智能数据库事业部总负责人。加入阿里巴巴之前为美国犹他大学计算机系终身教授。研究成果多次获得了IEEE ICDE、ACM SIGMOD最佳论文奖等重要学术奖项。
领取专属 10元无门槛券
手把手带您无忧上云