Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >InnoDB 对 Buffer Pool 的奇思妙想

InnoDB 对 Buffer Pool 的奇思妙想

作者头像
程序猿石头
发布于 2021-09-24 08:02:15
发布于 2021-09-24 08:02:15
6140
举报
文章被收录于专栏:程序猿石头程序猿石头

本文读完需9分钟,速读仅需5分钟。

前言

相信很多小伙伴在面试中都被问过「为什么要用缓存?」,大部分人都是回答:「减少数据库的磁盘IO压力」。

但是MySQL真的有如此不堪吗?

每次增删改查都要去走磁盘IO吗?

今天就聊聊InnoDBBuffer Pool的奇思妙想。

Buffer Pool

先梳理出问题,再思考如何解决问题。

假设我们就是InnoDB,我们要如何去解决磁盘IO问题?

这个简单,做缓存就好了,所以MySQL需要申请一块内存空间,这块内存空间称为Buffer Pool

Buffer Pool是申请下来了,但是Buffer Pool里面放什么,要怎么规划?

缓存页

MySQL数据是以页为单位,每页默认16KB,称为数据页,在Buffer Pool里面会划分出若干个缓存页与数据页对应。

感觉还少了点什么,我们如何知道缓存页对应那个数据页呢?

描述数据

所有还需要缓存页的元数据信息,可以称为描述数据,它与缓存页一一对应,包含一些所属表空间、数据页的编号、Buffer Pool中的地址等等。

后续对数据的增删改查都是在Buffer Pool里操作

  • 查询:从磁盘加载到缓存,后续直接查缓存
  • 插入:直接写入缓存
  • 更新删除:缓存中存在直接更新,不存在加载数据页到缓存更新

可能有小伙伴担心,MySQL宕机了,数据不就全丢了吗?

这个不用担心,因为InnoDB提供了WAL技术(Write-Ahead Logging),通过redo logMySQL拥有了崩溃恢复能力。

再配合空闲时,会有异步线程做缓存页刷盘,保证数据的持久性与完整性。

如果不能理解redo log是如何恢复数据的,可以看看阿星前面两篇文章

另外,直接更新数据的缓存页称为脏页,缓存页刷盘后称为干净页

Free链表

MySQL数据库启动时,按照设置的Buffer Pool大小,去找操作系统申请一块内存区域,作为Buffer Pool假设申请了512MB)。

申请完毕后,会按照默认缓存页的16KB以及对应的800Byte的描述数据,在Buffer Pool中划分出来一个一个的缓存页和它们对应的描述数据。

MySQL运行起来后,会不停的执行增删改查,需要从磁盘读取一个一个的数据页放入Buffer Pool对应的缓存页里,把数据缓存起来,以后就可以在内存里执行增删改查。

但是这个过程必然涉及一个问题,哪些缓存页是空闲的

为了解决这个问题,我们使用链表结构,把空闲缓存页的描述数据放入链表中,这个链表称为free链表。

针对free链表我们要做如下设计

  • 新增free基础节点
  • 描述数据添加free节点指针

最终呈现出来的,是由空闲缓存页的描述数据组成的free链表。

有了free链表之后,我们只需要从free链表获取一个描述数据,就可以获取到对应的缓存页。

描述数据缓存页写入数据后,就将该描述数据移出free链表。

缓存页哈希表

数据页是缓存进去了,但是又一个问题来了。

下次查询数据时,如何在Buffer Pool里快速定位到对应的缓存页呢?

难道需要一个非空闲的描述数据链表,再通过表空间号+数据页编号遍历查找吗?

这样做也可以实现,但是效率不太高,时间复杂度是O(N)

所以我们可以换一个结构,使用哈希表来缓存它们间的映射关系,时间复杂度是O(1)

表空间号+数据页号,作为一个key,然后缓存页的地址作为value

每次加载数据页到空闲缓存页时,就写入一条映射关系到缓存页哈希表中。

后续的查询,就可以通过缓存页哈希表路由定位了。

Flush链表

还记得之前有说过「空闲时会有异步线程做缓存页刷盘,保证数据的持久性与完整性」吗?

新问题来了,难道每次把Buffer Pool里所有的缓存页都刷入磁盘吗?

当然不能这样做,磁盘IO开销太大了,应该把脏页刷入磁盘才对(更新过的缓存页)。

可是我们怎么知道,那些缓存页是脏页

很简单,参照free链表,弄个flush链表出来就好了,只要缓存页被更新,就将它的描述数据加入flush链表。

针对flush链表我们要做如下设计

  • 新增flush基础节点
  • 描述数据添加flush节点指针

最终呈现出来的,是由更新过数据的缓存页描述数据组成的flush链表。

后续异步线程都从flush链表刷缓存页,当Buffer Pool内存不足时,也会优先刷flush链表里的缓存页。

LRU链表

目前看来Buffer Pool的功能已经比较完善了。

但是仔细思考下,发现还有一个问题没处理。

MySQL数据库随着系统的运行会不停的把磁盘上的数据页加载到空闲的缓存页里去,因此free链表中的空闲缓存页会越来越少,直到没有,最后磁盘的数据页无法加载。

为了解决这个问题,我们需要淘汰缓存页,腾出空闲缓存页。

可是我们要优先淘汰那些缓存页?总不能一股脑直接全部淘汰吧?

这里就要借鉴LRU算法思想,把最少使用的缓存页淘汰(命中率低),提供LRU链表出来。

针对LRU链表我们要做如下设计

  • 新增LRU基础节点
  • 描述数据添加LRU节点指针

实现思路也很简单,只要是查询或修改过缓存页,就把该缓存页的描述数据放入链表头部,也就说近期访问的数据一定在链表头部。

free链表为空的时候,直接淘汰LRU链表尾部缓存页即可。

LRU链表优化

麻雀虽小五脏俱全,基本Buffer Pool里与缓存页相关的组件齐全了。

但是缓存页淘汰这里还有点问题,如果仅仅只是使用LRU链表的机制,有两个场景会让热点数据被淘汰。

  • 预读机制
  • 全表扫描

预读机制是指MySQL加载数据页时,可能会把它相邻的数据页一并加载进来(局部性原理)。

这样会带来一个问题,预读进来的数据页,其实我们没有访问,但是它却排在前面。

正常来说,淘汰缓存页时,应该把这个预读的淘汰,结果却把尾部的淘汰了,这是不合理的。

我们接着来看第二个场景全表扫描,如果表数据量大,大量的数据页会把空闲缓存页用完。

最终LRU链表前面都是全表扫描的数据,之前频繁访问的热点数据全部到队尾了,淘汰缓存页时就把热点数据页给淘汰了。

为了解决上述的问题。

我们需要给LRU链表做冷热数据分离设计,把LRU链表按一定比例,分为冷热区域,热区域称为young区域,冷区域称为old区域。

以7:3为例,young区域70%,old`区域30%

如上图所示,数据页第一次加载进缓存页的时候,是先放入冷数据区域的头部,如果1秒后再次访问缓存页,则会移动到热区域的头部。

这样就保证了预读机制全表扫描加载的数据都在链表队尾。

young区域其实还可以做一个小优化,为了防止young区域节点频繁移动到表头。

young区域前面1/4被访问不会移动到链表头部,只有后面的3/4被访问了才会。

记住是按照某个比例将LRU链表分成两部分,不是某些节点固定是young区域的,某些节点固定是old区域的,随着程序的运行,某个节点所属的区域也可能发生变化。

小结

其实MySQL就是这样实现Buffer Pool缓存页的,只不过它里面的链表全是双向链表,阿星这里偷个懒,但是不影响理解思路。

读到这里,我相信大家对Buffer Pool缓存页有了深刻的认知,也知道从一个增删改查开始,如何缓存数据、定位缓存、缓存刷盘、缓存淘汰。

这里留问题给大家思考,Free、Flush、LRU这三个链表之间的联系,随着MySQL一直在运行,它们会产生怎样的联动。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序猿石头 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MySQL原理简介—4.深入分析Buffer Pool
27.生产环境应给Buffer Pool设置多少内存、多少Buffer Pool、多大的chunk
东阳马生架构
2025/02/07
1690
一、什么是Buffer Pool
「上述结构图中展示了Buffer Pool作为InnoDB内存结构的四大组件之一,不属于MySQL的Server层,是InnoDB存储引擎层的缓冲池」。因此这个跟MySQL8.0删掉的【查询缓存】功能是不一样的。
云扬四海
2022/09/26
2.8K0
认识InnoDB的Buffer Pool
对于innoDB存储引擎来说,数据是存储在磁盘上,而执行引擎想要操作数据,必须先将磁盘的数据加载到内存中才能操作。当数据从磁盘中取出后,缓存内存中,下次查询同样的数据的时候,直接从内存中读取,这样大大提高了查询性能。
小许code
2023/06/05
5180
认识InnoDB的Buffer Pool
答应我,这次要搞懂 Buffer Pool
虽然说 MySQL 的数据是存储在磁盘里的,但是也不能每次都从磁盘里面读取数据,这样性能是极差的。
小林coding
2022/04/07
7360
答应我,这次要搞懂 Buffer Pool
MySQL缓冲池(Buffer Pool)深入解析:原理、组成及其在数据操作中的核心作用
缓冲池是InnoDB存储引擎中一块连续的内存区域,用于缓存磁盘上的数据页和索引页。由于内存访问速度远快于磁盘访问,因此将经常访问的数据和索引加载到缓冲池中,可以显著提高数据库的读写性能。缓冲池的工作原理主要基于“时间局部性”和“空间局部性”原则,即最近访问过的数据在未来很可能再次被访问,且一个数据项被访问时,与其相邻的数据项也很可能被访问。
公众号:码到三十五
2024/03/19
3.5K0
MySQL缓冲池(Buffer Pool)深入解析:原理、组成及其在数据操作中的核心作用
详解MySQL中的Buffer Pool,深入底层带你搞懂它!
Buffer Pool 是什么?从字面上看是缓存池的意思,没错,它其实也就是缓存池的意思。它是 MySQL 当中至关重要的一个组件,可以这么说,MySQL的所有的增删改的操作都是在 Buffer Pool 中执行的。
Java程序猿
2021/05/27
6.3K1
Innodb Buffer Pool的三种Page和链表
Buffer Pool 是Innodb 内存中的的一块占比较大的区域,用来缓存表和索引数据。众所周知,从内存访问会比从磁盘访问快很多。为了提高数据的读取速度,Buffer Pool 会通过三种Page 和链表来管理这些经常访问的数据,保证热数据不被置换出Buffer Pool。
用户1278550
2020/02/11
1.4K0
Innodb Buffer Pool的三种Page和链表
MySQL的缓冲池[Buffer Pool]你知道多少?
  buffer pool 就是一个缓存,将磁盘中的数据缓存到内存中,对数据的操作改为通过内存进行操作,然后刷盘的操作,提升性能。
用户4919348
2022/01/07
1K0
MySQL的缓冲池[Buffer Pool]你知道多少?
MySQL——Buffer Pool
其中基节点是一块单独申请的内存空间(约占40字节)。并不在Buffer Pool的那一大片连续内存空间里。
爪哇缪斯
2023/05/10
4080
MySQL——Buffer Pool
【MySQL系列】- 浅入Buffer Pool
InnoDB 存储引擎是以数据页为单位来管理存储空间的。InnoDB 存储引擎在处理客户端的请求时,当需要访问某个数据页的数据时,就会把完整的数据页的数据全部加载到内存中,也就是说即使我们只需要访问一个数据页的一条记录,那也需要先把整个数据页的数据加载到内存中。将整个数据页加载到内存中后就可以进行读写访问了,在进行完读写访问之后并不着急把该数据页对应的内存空间释放掉,而是将其缓存起来,这样将来有请求再次访问该页面时,就可以省去磁盘 IO 的开销了。这个缓存就称之为Buffer Pool。
索码理
2022/09/20
8770
【MySQL系列】- 浅入Buffer Pool
细说MySQL中磁盘与CPU的交互——神秘的Buffer Pool
  对于使用InnoDB作为存储引擎的表来说,不管是用于存储用户数据的索引(包括聚集索引和非聚集索引),还是各种系统数据,都是以页的形式存放在磁盘上的。而CPU与内存的交互远远快于与磁盘的交互,所以InnoDB存储引擎在处理客户端的请求时,如果需要访问某个页的数据,就会把完整的页中的数据全部加载到内存中。也就是说,即使我们只需要访问一个页的一条记录,也需要先把整个页的数据加载到内存中。
砖业洋__
2023/05/06
3240
细说MySQL中磁盘与CPU的交互——神秘的Buffer Pool
2023-2024年java八股文面试之一:数据库
是MYSQL数据库中的一个重要的内存组件,介于外部系统和存储引擎之间的一个缓存区,针数据库的增删改查这些操作都是针对这个内存数据结构中的缓存数据执行的,在操作数据之前,都会将数据从磁盘加载到中,操作完成之后异步刷盘、写undo log、binlog、redolog等一些列操作,避免每次访问都进行磁盘IO影响性能。
用户5737562
2023/09/05
3380
2023-2024年java八股文面试之一:数据库
平衡磁盘与CPU-InnoDb的buffer pool
mysql中的数据都在磁盘里,为了提高查询的性能,在mysql服务启动的时候向操作系统申请了一片连续的内存,也是是今天说的buffer pool,默认情况下是128MB。
热心的大肚皮
2023/02/28
2810
平衡磁盘与CPU-InnoDb的buffer pool
Innodb Buffer Pool详解
导读 数据库为了高效读取和存储物理数据,通常都会采用缓存的方式来弥补磁盘IO与CPU运算速度差。InnoDB 作为一个具有高可靠性和高性能的通用存储引擎也不例外,Buffer Pool就是其用来在内存中缓存数据页面的结构。本文将基于MySQL-8.0.22源码,从buffer pool结构、buffer pool初始化、buffer pool管理、页面读取过程、页面淘汰过程、buffer pool加速等方面介绍buffer pool的实现原理。 第一部分、Buffer pool结构 Buffer pool不
腾讯数据库技术
2023/01/30
1.5K0
Innodb Buffer Pool详解
缓冲池 buffer pool的解释
磁盘读写,并不是按需读取,而是按页读取,一次至少读一页数据(一般是4K),如果未来要读取的数据就在页中,就能够省去后续的磁盘IO,提高效率。
名字是乱打的
2022/03/04
1.3K0
缓冲池 buffer pool的解释
什么是数据库的 “缓存池” ?(万字干货)
Buffer Pool 是什么?从字面上看是缓存池的意思,没错,它其实也就是缓存池的意思。它是 MySQL 当中至关重要的一个组件,可以这么说,MySQL的所有的增删改的操作都是在 Buffer Pool 中执行的。
小灰
2021/02/05
7100
什么是数据库的 “缓存池” ?(万字干货)
多个buffer Pool实例 (3)—Buffer Pool(五十六)
前面说了lru链表,为了防止mysql的预读和全表查询刷新pool的频率太高,所以把lru链表分为young区域和old区域,但是频繁的移动lru链表也影响性能,所以当在young后半部1/4区域的时候,才会移动到最前面。初始数据从磁盘刷新到内存中,先是进入old区域,当超过1S之后继续访问,则会移动到young区域。预读分为两种,第一种是当mysql检测到执行语句按顺序查询超过一定值,则会吧下一个区的所有页全部都预先刷新到缓存页里,第二种就是13个页在同一个区,这时候会吧这个区的数据全部刷新到缓存页。
用户9919783
2022/07/29
5040
6 mysql底层解析——缓存,Innodb_buffer_pool,包括连接、解析、缓存、引擎、存储等
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
天涯泪小武
2019/09/18
1.5K0
6 mysql底层解析——缓存,Innodb_buffer_pool,包括连接、解析、缓存、引擎、存储等
main的MySQL系列之:尬聊buffer pool
MySQL大体分为Server层和存储引擎层,内置函数都是Server层实现,跨存储引擎的功能如存储过程、视图、触发器等也是在Server层实现的。
老李秀
2020/04/23
8440
聊一聊mysql的buffer pool
咱们在使用mysql的时候,比如很简单的select * from table;这条语句,具体查询数据其实是在存储引擎中实现的,大家都知道mysql数据其实是放在磁盘里面的,如果每次查询都直接从磁盘里面查询,这样势必会很影响性能,所以一定是先把数据从磁盘中取出,然后放在内存中,下次查询直接从内存中来取。但是一台机器中往往不是只有mysql一个进程在运行的,很多个进程都需要使用内存,所以mysql中会有一个专门的区域来处理这些数据,这个专门为mysql准备的区域,就叫buffer pool。
程序员小饭
2021/03/04
5440
相关推荐
MySQL原理简介—4.深入分析Buffer Pool
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档