首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >第37期:适当的使用 MySQL 原生表分区

第37期:适当的使用 MySQL 原生表分区

作者头像
爱可生开源社区
发布于 2021-11-30 05:45:29
发布于 2021-11-30 05:45:29
66300
代码可运行
举报
运行总次数:0
代码可运行

MySQL 数据库现在主要用的引擎是 InnoDB ,InnoDB 没有类似于 MERGE 引擎这样的原生拆表方案,不过有原生分区表,以水平方式拆分记录集,对应用端透明。

分区表的存在为超大表的检索请求、日常管理提供了一种额外的选择途径。分区表使用得当,对数据库性能会有大幅提升。

分区表主要有以下几种优势:
  1. 大幅提升某些查询的性能。
  2. 简化日常数据运维工作量、提升运维效率。
  3. 并行查询、均衡写 IO 。
  4. 对应用透明,不需要在应用层部署路由或者中间层。
接下来我们用实际例子来了解下分区表在某些场景下对查询性能的提升以及对日常运维的简化操作。
  1. 针对检索来讲:
优化查询性能(范围查询)

拆分合适的分区表,对同样的查询来讲,扫描的记录数量要比非分区表少很多,性能远比非分区表来的高效。

以下示例表 t1 为非分区表,对应的分区表为 p1 ,两张表有相同的纪录数,都为 1KW 条。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> show create table t1\G
*************************** 1. row ***************************
       Table: t1
Create Table: CREATE TABLE `t1` (
  `id` int NOT NULL,
  `r1` date DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)


localhost:ytt> show create table p1\G
*************************** 1. row ***************************
       Table: p1
Create Table: CREATE TABLE `p1` (
  `id` int NOT NULL,
  `r1` date DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
/*!50100 PARTITION BY RANGE (`id`)
(PARTITION p0 VALUES LESS THAN (1000000) ENGINE = InnoDB,
 PARTITION p1 VALUES LESS THAN (2000000) ENGINE = InnoDB,
 PARTITION p2 VALUES LESS THAN (3000000) ENGINE = InnoDB,
 PARTITION p3 VALUES LESS THAN (4000000) ENGINE = InnoDB,
 PARTITION p4 VALUES LESS THAN (5000000) ENGINE = InnoDB,
 PARTITION p5 VALUES LESS THAN (6000000) ENGINE = InnoDB,
 PARTITION p6 VALUES LESS THAN (7000000) ENGINE = InnoDB,
 PARTITION p7 VALUES LESS THAN (8000000) ENGINE = InnoDB,
 PARTITION p8 VALUES LESS THAN (9000000) ENGINE = InnoDB,
 PARTITION p9 VALUES LESS THAN MAXVALUE ENGINE = InnoDB) */
1 row in set (0.00 sec)

localhost:ytt> select count(*) from t1;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (0.94 sec)

localhost:ytt> select count(*) from p1;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (0.92 sec)

我们来分别对两张表做范围检索,以下为执行计划:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> explain format=tree select count(*) from t1 where id < 1000000\G
*************************** 1. row ***************************
EXPLAIN: -> Aggregate: count(0)
    -> Filter: (t1.id < 1000000)  (cost=407495.19 rows=2030006)
        -> Index range scan on t1 using PRIMARY  (cost=407495.19 rows=2030006)

1 row in set (0.00 sec)

localhost:ytt> explain format=tree select count(*) from p1 where id < 1000000\G
*************************** 1. row ***************************
EXPLAIN: -> Aggregate: count(0)
    -> Filter: (p1.id < 1000000)  (cost=99980.09 rows=499369)
        -> Index range scan on p1 using PRIMARY  (cost=99980.09 rows=499369)

1 row in set (0.00 sec)

表 t1 对比表 p1 的执行计划,从成本,扫描记录数来讲,前者比后者多了几倍,明显分区表比非分区表性能来的更加高效。

再来看看对两张表做不等于检索的执行计划:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> explain format=tree select count(*) from t1 where id != 2000001\G
*************************** 1. row ***************************
EXPLAIN: -> Aggregate: count(0)
    -> Filter: (t1.id <> 2000001)  (cost=1829866.58 rows=9117649)
        -> Index range scan on t1 using PRIMARY  (cost=1829866.58 rows=9117649)

1 row in set (0.00 sec)

localhost:ytt> explain format=tree select count(*) from p1 where id != 2000001\G
*************************** 1. row ***************************
EXPLAIN: -> Aggregate: count(0)
    -> Filter: (p1.id <> 2000001)  (cost=1002750.23 rows=4993691)
        -> Index range scan on p1 using PRIMARY  (cost=1002750.23 rows=4993691)

1 row in set (0.00 sec)

对于这样的低效率 SQL 来讲,从执行计划结果来看,分区表从成本、扫描记录数等均比非分区表有优势。

优化写入性能(带过滤条件的 UPDATE )。

对于这类更新请求,分区表同样要比非分区表来的高效。

下面为等值过滤的更新场景下,非分区表与分区表的执行计划对比:仅仅看扫描行数即可,分区表扫描记录数比非分区表要来的更少。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> explain update t1 set r1 = date_sub(current_date,interval ceil(rand()*5000) day) where id between 1000001 and 2990000\G
*************************** 1. row ***************************
           id: 1
  select_type: UPDATE
        table: t1
   partitions: NULL
         type: range
possible_keys: PRIMARY
          key: PRIMARY
      key_len: 4
          ref: const
         rows: 3938068
     filtered: 100.00
        Extra: Using where
1 row in set, 1 warning (0.00 sec)

localhost:ytt> explain update p1 set r1 = date_sub(current_date,interval ceil(rand()*5000) day) where id between 1000001 and 2990000\G
*************************** 1. row ***************************
           id: 1
  select_type: UPDATE
        table: p1
   partitions: p1,p2
         type: range
possible_keys: PRIMARY
          key: PRIMARY
      key_len: 4
          ref: const
         rows: 998738
     filtered: 100.00
        Extra: Using where
1 row in set, 1 warning (0.00 sec)
  1. 针对运维来讲:
分区表数据与非分区数据进行交换。

分区表的特定分区数据可以很方便的导出导入,能够快速的与非分区表数据进行交换。

创建一张表 t_p1 ,用来和表 p1 的分区 p1 交换数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> create table t_p1 like t1;
Query OK, 0 rows affected (0.06 sec)

分区 p1 本身包含了 100W 行记录。使用分区表原生数据交换功能来交换数据,只花了 0.07 秒。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> alter table p1 exchange partition p1 with table t_p1;
Query OK, 0 rows affected (0.07 sec)

查看交换后的数据, 表 p1 少了 100W 行记录,分区 p1 被清空,表 t_p1 多了 100W 行记录。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> select count(*) from p1;
+----------+
| count(*) |
+----------+
|  9000000 |
+----------+
1 row in set (0.79 sec)

localhost:ytt> select count(*) from t_p1;
+----------+
| count(*) |
+----------+
|  1000000 |
+----------+
1 row in set (0.13 sec)

可以随时把数据交换回来,被交换的表清空。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> alter table p1 exchange partition p1 with table t_p1;
Query OK, 0 rows affected (0.77 sec)

localhost:ytt> select count(*) from p1;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (0.91 sec)

localhost:ytt> select count(*) from t_p1;
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row in set (0.00 sec)

对比下非分区表的数据交换,步骤为:

  1. 选择需要交换的互换表。
  2. 从原始表选出数据导入到互换表。
  3. 删除原始表涉及到的数据。

如果此时需要把换出去的数据重新换入原始表,则需要以上步骤反着再来一遍,增加运维难度并且操作低效。

分区表置换还有一个最大的优点,就是比非分区表记录的日志量要小的多。我们来重新把上面的置换操作做一次。删除所有二进制日志。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt>reset master;

Query OK, 0 rows affected (0.02 sec)

做一次分区置换

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt>alter table p1 exchange partition p2 with table t_p1;
Query OK, 0 rows affected (2.42 sec)

再次做置换删除表 t_p1 数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt>alter table p1 exchange partition p2 with table t_p1;
Query OK, 0 rows affected (0.45 sec)

此时两次置换操作记录到二进制日志 ytt1.000001 里。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt>show master status;
...
 ytt1.000001 :47d6eda0-6468-11ea-a026-9cb6d0e27d15:1-2

重刷日志,非分区表置换记录。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt>flush logs;
Query OK, 0 rows affected (0.01 sec)


localhost:ytt>insert into t_p1 select * from p1 partition (p2) ;
Query OK, 934473 rows affected (5.25 sec)
Records: 934473  Duplicates: 0  Warnings: 0


localhost:ytt>show master status;
...
 ytt1.000002 :47d6eda0-6468-11ea-a026-9cb6d0e27d15:1-3

来看看具体的日志文件,ytt1.000001 只占了588个字节,而 ytt1.000002 记却要占用 7.2M 。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
root@ytt-pc:/var/lib/mysql/3306# ls -sihl ytt1.00000*
2109882 4.0K -rw-r----- 1 mysql mysql  588 723 11:13 ytt1.000001
2109868 7.2M -rw-r----- 1 mysql mysql 7.2M 723 11:14 ytt1.000002
快速清理单个分区数据。

删除单个分区数据性能要优于非分区表删除某个范围内的数据。

比如,要清空分区表 p1 分区 p0 ,直接 truncate 单个分区。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> alter table p1 truncate partition p0;
Query OK, 0 rows affected (0.07 sec)

localhost:ytt> select count(*) from p1;
+----------+
| count(*) |
+----------+
|  9000001 |
+----------+
1 row in set (0.92 sec)

非分区表只有 truncate 整张表的功能,所以无法对部分数据进行快速清理,只能根据过滤条件来 delete 数据,那这个性能就差了很多。同样的操作,比非分区表慢几十倍。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
localhost:ytt> delete from t1 where id < 1000000;
Query OK, 999999 rows affected (26.80 sec)
总结:

MySQL 分区表在很多场景下使用非常高效,本篇介绍了分区表在简单检索与运维方面的基础优势,后续我们逐个来讨论更多场景下的分区表应用。


文章推荐:

第36期:MySQL 原生水平拆表

第35期:MySQL 数据垂直拆分

第34期:MySQL 表冗余设计

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 爱可生开源社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
python3 生成均匀分布随机数_Python 3.9来了!这十个新特性值得关注
近日,Python 3.9 发布,并开发了一些新特性,包括字典合并与更新、新的解析器、新的字符串函数等。
用户7886150
2021/01/28
1.1K0
Python 3.9来了!这十个新特性值得关注
Python 3.9 已于 10 月 5 日发布,新版本的特性,你 get 到了吗?对于 Python 程序员来说,这又是一个令人兴奋的时刻。
机器之心
2020/10/27
1.2K0
Python 3.9来了!这十个新特性值得关注
关于Python3.9,这张「新特性必知图」就够了
为了更好地理解此次更新,Twitter上一位16岁少年Pratham Prasoon,还自制了一张「Python 3.9新特性必知图」。
Python知识大全
2020/10/23
1.2K0
关于Python3.9,这张「新特性必知图」就够了
Python 3.9就要来了……,令人兴奋的时刻
本文主要介绍Python3.9的一些新特性,如:更快速的进程释放,性能的提升,简便的新字符串函数,字典并集运算符以及更兼容稳定的内部API,详细如下:
Java架构师必看
2021/03/22
4730
Python 3.9就要来了……,令人兴奋的时刻
太爽了!Python3.9 的那些新特性
关于多进程库的改进,Python 3.9 向 multiprocessing.SimpleQueue 类添加了新方法 close()。 此方法可以显式地关闭队列。这将确保队列关闭并且停留时间不会比预期长。值得注意的是,一旦关闭队列,就不能调用 get()、put() 和 empty() 方法。
龙哥
2021/07/13
2.1K0
Python 3.9 你所需要知道的都在这里
# 只有一行代码,看上去很酷,缺点是这种hack技巧只有在字典的键是字符串时才有效。
用户7886150
2021/01/12
4890
Python3.6、3.7、3.8、3.9新特性
本文列举了Python3.6、3.7、3.8、3.9四个版本的新特性,学习它们有助于提高对Python的了解,跟上最新的潮流。
好派笔记
2021/08/21
5.2K0
Python3.6、3.7、3.8、3.9新特性
关于Python 3.9,那些你不知道的事
Python的下一个版本带来了更快速的进程释放,性能的提升,简便的新字符串函数,字典并集运算符以及更兼容稳定的内部API。
Ai学习的老章
2020/09/22
5710
关于Python 3.9,那些你不知道的事
有意思的 lstrip 和 removeprefix(Python 3.9)
Python 3.9 的新特性中,有两个新的字符串方法:str.removeprefix(prefix, /)、str.removesuffix(suffix, /),前者是去除前缀,后者是去除后缀。
Alan Lee
2020/05/26
1.2K0
Python 3.10 和 Python 3.9 之间的差异
在过去的几十年里,Python 在编程或脚本语言领域为自己创造了一个名字。python 受到高度青睐的主要原因是其极端的用户友好性。Python 还用于处理复杂的程序或编码挑战。机器学习 (ML)、人工智能 (AI) 和数据科学等新兴领域也满足了学习这种语言的高需求。与 Java、C# 和其他语言等传统语言相比,Python 是一种强大的编程语言,迅速成为开发人员、数据科学家和 AI/ML 爱好者的最爱。
海拥
2021/12/20
4K0
Python3.8还没有捂热,Python3.9这么快就来了
为了更好地理解此次更新,Twitter上一位16岁少年Pratham Prasoon,还自制了一张「Python 3.9新特性必知图」。
用户1667431
2020/10/26
1.5K0
Python3.8还没有捂热,Python3.9这么快就来了
Python3.9的7个特性
当Python的新版本问世时,许多人担心向后兼容性问题和其他问题。但是如果你喜欢Python,你一定会对新更新中发布的特性感到兴奋。
磐创AI
2020/11/09
1.1K0
Python3.9的7个特性
Python 3.9,来了!
过去一年,来自世界各地的开发者们一直在致力于 Python3.8 的改进。Python 3.9 beta 版本已经存在了一段时间,第一个正式版本于 2020年 10 月 5 日发布。
崔庆才
2020/10/30
2.1K0
Python 3.9,来了!
Python 3.9,来了!
过去一年,来自世界各地的开发者们一直在致力于Python3.8的改进。Python 3.9 beta版本已经存在了一段时间,第一个正式版本于2020年10月5日发布。
派大星的数据屋
2022/04/03
1K0
Python 3.9,来了!
Python3.9正式版即将发布,来看看新特性
Python 正在一直马不停蹄地更新,历时数月,我们迎来了又一个 Beta 版 —— 3.9.0b3,Python 3.9 正式版已经不远了,一起来看它带来了哪些值得开发者关注的重要新特性!
刘早起
2020/07/01
7290
Python3.9正式版即将发布,来看看新特性
Python 3.9:最新版本的新特性和改进
Python 3.9是Python编程语言的最新版本,于2020年10月5日发布。这个版本包含了许多新特性和改进,使得Python编程更加方便和高效。在本文中,我们将介绍Python 3.9的一些新特性和改进,并提供相应的代码示例和注释。
王也518
2023/12/22
8260
Python3.9更新文档
版本:3.9.1 日期:2021.1.1 作者:Lukasz Langa python3.9发布于2020.10.5,这里做与python3.8的比较
福贵
2022/02/25
6130
Python3.9 终于来了,新功能详细介绍
虽然字符串函数并没有其他特性那么“伟大”,由于非常实用,也值得在这里一提。新版本中添加了移除前缀和后缀的两个字符串函数:
行哥玩Python
2020/07/14
5120
Python 3.9 beta2 版本发布了,看看这 7 个新的 PEP 都是什么?
随着 Python 3.9.0b1 的发布,即开发周期中计划的四个 beta 版本的首个,Python 3.9 的功能已经是完善了。在 10 月发布最终版本之前,还会有许多测试和稳定性方面的工作要做。
Python猫
2020/06/16
5790
[译] Python各版本的主要更改
本文总结了Python 3.7到3.12的语法及标准库的主要更改,并且介绍了typing模块的主要更改。此外,还提到了各个版本的EOL(End of Life,Python官方不再提供安全补丁的日期)。
一只大鸽子
2024/03/04
6680
[译] Python各版本的主要更改
相关推荐
python3 生成均匀分布随机数_Python 3.9来了!这十个新特性值得关注
更多 >
LV.0
这个人很懒,什么都没有留下~
目录
  • 分区表主要有以下几种优势:
  • 接下来我们用实际例子来了解下分区表在某些场景下对查询性能的提升以及对日常运维的简化操作。
    • 优化查询性能(范围查询)
    • 优化写入性能(带过滤条件的 UPDATE )。
    • 分区表数据与非分区数据进行交换。
    • 快速清理单个分区数据。
    • 总结:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档