作者介绍:
赵守斌,十年银行业数据库管理经验,熟悉各种Oracle数据库系统方案,对MySQL开源数据库也有涉猎。目前牵头负责恒丰银行数据库管理和各类数据库服务化平台建设。
背景
Background
很多关注数据库技术的IT人士可能记不住去年双十二都剁手买了什么东西,但是一定会有人对当时一篇“Galera将死——MySQL Group Replication正式发布”的文章还有印象。
长期以来MySQL官方都缺少原生的MySQL集群多活方案,所以也给第三方公司提供了发展的机会。Galera就是其中的一个典型,两种基于Galera的方案MariaDB Galera Cluster 和Percona XtraDB Cluster发展已有几年的历史,而且已经有不少业界使用经验,比如去哪儿网就使用了较多的Percona XtraDB Cluster(PXC)
2016年12月12日ORACLE发布了MySQL Group Replication的首个GA版本,并且提供了自家对比Galera的性能测试,当然是各方面秒杀Galera。
原文链接:
http://mysqlhighavailability.com/performance-evaluation-mysql-5-7-group-replication/?spm=5176.100239.blogcont66550.17.T4N8cZ
简单来说OLTP场景下,MGR大概性能是Galera的两倍。也就是这篇激动人心的原生的、性能更先进的MySQL集群产品的发布才有了去年双十二期间“Galera将死——MySQL Group Replication正式发布”的火爆。
作为发展历史更悠久的Galera当然也不会坐以待毙,时隔四个月之后,2017年4月份Percona发布了Percona XtraDB Cluster 5.7.17-29.20版本,性能得到极大提高,并且Percona公司也发布了自家对比MGR的性能对比测试。
原文地址:
https://www.percona.com/blog/2017/04/19/performance-improvements-percona-xtradb-cluster-5-7-17/
原文较长,简单来说在提高wsrep_slave_threads并发复制线程数等综合优化之后,PXC的性能像开挂一般提升,Percona自己对比5.7.17和上一个版本5.7.16之间的性能,OLTP综合场景下大概提升有3倍多,可见的确称得上大杀器:
测试
Test
以上两家公司各自测试,都宣称自己的产品性能优于对方,那么作为客户应该相信哪一家呢?
我们使用同样的硬件环境,独立测试了两家产品。
测试方案 | 版本 | 测试环境 |
---|---|---|
MySQL异步复制 | 5.7.19 | 二路X86服务器,256G内存,SSD硬盘,万兆网 |
MySQL半同步复制 | 5.7.19 | |
MySQL Group Replication | 5.7.19 | |
Percona XtraDB Cluster | 5.7.18-29.20 |
测试过程使用标准的sysbench 0.5版本的OLTP场景,数据库准备了100张400w的表,压测并发线程120,MySQL的公共参数基本参考Percona的测试(他们家公布了所有案例和参数文件,可供用户自行测试)压测命令参考如下:
经过多轮30分钟的长时间压测,取sysbench自动统计的压测结果
对比结果:
(1) 相同测试环境下,MySQL Group Replication与Percona XtraDB Cluster性能基本差不多,相当于单机性能的60%。
方案 | TPS | 平均响应时间 | TPS同比单机 | 响应时间同比单机 |
---|---|---|---|---|
MySQL单主库 | 10260 | 11.69 | ||
MySQL异步复制 | 10385 | 11.55 | 101.22% | 98.80% |
MySQL半同步复制 | 8741 | 13.73 | 85.19% | 117.45% |
MySQL MGR | 6066 | 19.78 | 59.12% | 169.20% |
percona PXC | 5884 | 20.39 | 57.35% | 174.42% |
(2)增加网络0.6ms的延迟对半同步复制影响较大(TPS下降约一半,平均交易响应时间翻倍),对MySQL Group Replication与PerconaXtraDB Cluster基本没有影响(TPS和平均交易响应时间均变化不大),意味着如果同城两个数据中心网络条件好,那么具备同城跨机房部署集群的条件。
(3)PXC的稳定性要好于MGR,TPS比较稳定,不像MGR毛刺比较严重:
(4)测试发现性能瓶颈点
对于PXC来说,测试发现wsrep_slave_threads对TPS影响较大(详见下表),官方也建议可以适当调大此参数,但是要注意对CPU使用率的影响。综合本场景最终选择设置为20进行压测。
压测机器 | wsrep_slave_threads | tps | 平均响应时间 |
---|---|---|---|
机器1 | 48 | 5990 | 20 |
32 | 6003 | 19.99 | |
16 | 4858 | 24.69 | |
8 | 2959 | 40 | |
1 | 616 | 194 | |
机器2 | 48 | 5900 | 20 |
20 | 5821 | 20 | |
16 | 5174 | 23 |
对于MGR来说,发现flow_control对TPS影响较大。默认值25000测试TPS只有1125,调大十倍到250000后TPS能达到近6000。
(4)功能性对比
本文主要目的是为了性能压测,但是在压测过程中也顺便体验了两种产品的功能,受限于使用经验不够丰富,简单总结如下:
MySQL MGR | percona PXC | |
---|---|---|
安装 | 插件式安装,比较简单 | 发布仅一年,无客户使用 |
成熟度 | 发布仅一年,无客户使用 | 发布五年多,经历MySQL5.5/5.6/5.7三个版本;有较多客户使用,如国内去哪儿网 |
性能 | 实际测试性能相差不大只有3%;大多数同步的方式,性能短板不明显 | 实际测试性能相差不大只有3%;由于数据在所有节点强同步所以性能由最差节点决定 |
功能性对比 | 安装简单,但是使用较难,配套工具不够成熟(如集群扩展多节点需要用户自行备份恢复数据库)对大事物支持欠缺(如单笔交易插入100万条记录),集群容错性不够好(复制冲突时集群会分裂) | 集群添加节点自动扩展,集成自家Xtrabackup工具,无需用户自行备份恢复数据,提供配套的监控工具,支持大事物(一次性插入1000万条记录),自身具备冲突检测解决方案 |
高可用特性 | 基于Paxos协议,数据在大多数节点同步;具备多主写入功能,但是不推荐使用 | GaleraReplication是一种certiticationbased replication保证集群所有节点强同步;也具备多主写入功能,但是也需要注意减少冲突 |
结论
Conclusion
MySQL MGR作为官方力推的明星产品,的确具备了与市场老牌产品如PXC竞争的资格,但是现在就谈Galera将死还言之过早,在功能完善性方面还比不上成熟的PXC。期待两家产品继续PK竞争,从而推出更加稳定、高效的集群解决方案。
参考
Reference
公用的主要参数:
PXC的特殊参数:
测试过程中发现wsrep_slave_threads默认设置8严重限制TPS,所以调大到20
MGR的特殊参数:
测试过程中发现默认flow_control设置25000太小,严重限制了TPS,所以调大到250000
SET GLOBALgroup_replication_flow_control_certifier_threshold=250000; SET GLOBALgroup_replication_flow_control_applier_threshold=250000;